VLA分层革命:当机器人学会用“快慢脑”思考物理世界|

率先实现泛化能力、灵巧操作、CoT推理能力的融合。


作者|王艺


1957年,在一场国际会议上,一位男士通过操作机械臂,为打字员女士点燃了一支香烟,这个机器臂名叫Atomic Robot a Handy Guy(原子机器人),是第一个能完成复杂操作的机器人,这场带有“真人秀”性质的表演被视为人类历史上机器操作的起源。


Atomic Robot a Handy Guy 视频来源:网络


1966-1972年,斯坦福研究院研发出了一台名为Shakey的机器人,它可以尝试简单的英文指令,如“Push the box off the platform.(将盒子推下平台)”,并且遇到障碍能转身、见到旗帜能停车。这是人类历史上第一次尝试让机器人理解语言指令并行动,这台小车也被视为机器人“有思考能力”的开端。


Shakey机器人,图源:网络


时间快进到半个世纪以后,2013年,DeepMind的DQN通过将游戏的像素值作为网络的输入,成功在一套雅达利(Atari)游戏中超越了之前所有模型的得分,学术界第一次意识到,深度学习可以让“视觉”和“动作”用同一张神经网络实现。于是,一批戴着摄像头、学会了叠积木、插USB接口的“专用”机器人成为了科技界的新宠。但是,这些搭载了专用模型的机器人却常常因为光照变化或者物体稍微换形就“宕机”,大家发现,让机器人理解物理世界比理解雅达利游戏难得多。


直到2021年,OpenAI的CLIP、Google的ALIGN把海量图片和文字对齐到同一个嵌入空间,具身智能进入了VLM(Vision-Language-Model,视觉语言模型) 时代后,视觉与语言才第一次“完全听懂”了对方。VLM模型虽能理解视觉与语言关联,但缺乏对物理动作的直接控制能力,需依赖额外模块将指令转化为动作信号。


2022年,Google和CMU相继推出“SayCan”、“Instruct2Act” 工作,Transformer模型既看图、又读指令、还能生成生成动作轨迹成为可能;2023年,随着谷歌DeepMind推出RT-2模型,机器人可以端到端地从给定的语言指令和视觉信号,直接生成特定的动作,具身智能领域也迎来了一个新名词:VLA(Vision-Language-Action Model,视觉-语言-动作模型)。


如果说过去十年,机器人领域的焦点先后经历了「看得见」的视觉感知、「听得懂」的语言理解,那么在VLA模型出现之后,机器人开始走向「动得准」的第三阶段。




1.VLA的困境


VLA模型的整体框架可以被视为VLM与端到端模型的结合体,也被看作是端到端大模型2.0——多模态机器学习模型。其核心组件包括视觉编码器、文本编码器、动作解码器。视觉编码器负责提取图像的高级特征,文本编码器处理用户指令或导航信息,动作解码器输出未来10-30秒的动作路径。


VLA模型通用架构,图源:《A Survey on Vision-Language-Action Models for Embodied AI


与传统的视觉语言模型(VLM)相比,VLA模型的优势在于其不仅可以解析图像和文本信息,还能实现类人推理与全局理解,换句话说,它的“拟人化”和“可解释性”更高;


而如果在此基础上再进一步总结VLA模型的四个核心特性,那么应该是:


  • 架构继承:不重新设计整体结构,只新增或替换输出模块(如action head);

  • 动作token化:将机器人动作表示为语言形式(位置、速度、轨迹点等);

  • 端到端学习:感知-推理-控制一体化完成;

  • 可泛化性:预训练VLM具备强视觉理解能力,有助于跨任务迁移。


VLA模型打破了以往只能在单个任务上训练大模型的局限性,让机器人第一次拥有了将语言意图、视觉感知与物理动作编织成连续决策流的能力,让具身大模型变得更加通用和泛化,极大缩短了指令理解和任务执行之间的距离,显著提升了机器人对复杂环境的理解和适应能力。


也正是出于上述种种优势,VLA成为了当下最具身智能最为火热的技术趋势,2025年以来,众多公司相继发布自己的VLA模型,如谷歌的Gemini Robotics,英伟达的Groot N1,微软的Magma、Figure的Helix、银河通用的GraspVLA、智元机器人的Go-1基座模型等。


然而,VLA模型并非完美,也存在着自己的困境:


首先是缺乏数据,数据采集难度大、成本高。VLA模型训练需要大规模且高质量的多模态数据集,包括视觉、语言和动作数据的同步。然而由于没有足够多的具身硬件商用,具身智能机器人很难像自动驾驶汽车那样构建数据飞轮, 通过遥操作的方式采集数据成本高且可扩展性差。加之数据标注工作环节耗时且昂贵,导致模型过于依赖预训练的专家数据集,难以有效学习复杂任务和环境中的行为——比如谷歌RT-2虽能通过符号理解和推理完成单步任务(如“捡起灭绝的动物”),但在需要多步骤协同的复杂任务(如“准备早餐并清理厨房”)中表现受限。


其次是长期规划与状态跟踪能力欠缺。VLA模型通常由VLM(通常被视为具身智能的“大脑”)和动作模型(通常被视为具身智能的“小脑”)构成,大小脑之间有机连接依赖语言指令直接映射动作,时序依赖性处理不足,缺乏长期记忆机制,导致VLA模型语义跟随性差,难以处理需多步规划的任务,在长流程任务中易出现步骤遗漏或逻辑混乱,导致陷入行为停滞或无法正确识别目标对象的现象。


如何解决上述问题?


将VLA模型分层或许是思路之一。


2025年以来,中美两地的头部机器人公司都做了同一个动作:将原本的长链条端到端模型VLA模型拆开,分成VLM和动作执行两个模型,相当于把机器人的动作规划和动作执行分开。比如Physical Intelligence(简称Pi)推出了有高低层推理结构的π0.5,Figure AI推出了具有S2(VLM)+S1(运动控制模型)双系统架构的Helix模型,智元机器人也推出了VLM(多模态大模型) + MoE(混合专家)组成的Villa架构Go-1模型。


具体而言,分层模型利用大语言模型的强大规划与推理能力,构造出类似人类“快慢脑(快脑为系统1,涉及直觉、情感、习惯和快速决策;慢脑为系统2,涉及逻辑、推理、分析和深思熟虑)”的分层体系——“高层任务规划器”和“底层动作控制器”。先由高层任务规划器(慢脑,或VLM)将复杂任务逐级拆解,再由底层控制器(快脑,或动作执行模型)完成具体的精准操作。通过将VLA拆分成VLM和动作执行两个模型后,VLM模型能学习的数据类型得以大幅扩展,它不再像VLA那样只能通过“遥操作”来进行模仿学习,而是也能从大量的互联网视频中学习人类的操作技巧。


在这种技术路径下,机器人得以应对更加复杂多样、长时间跨度的场景和任务,从而真正走向通用智能时代的落地。




2.将Action注入VLA Model


全世界率先提出这种方案的不是大厂和高校,而是一家叫灵初智能的创业公司。


早在2020年学术界系统定义VLA概念之前,灵初团队便开始尝试将视觉编码器与语言指令相结合,通过对比学习与自监督训练,构建了首个能处理开放式指令的工业机器人系统。其2022年发布的“家务助手”机器人,也能通过摄像头观察环境,理解“把碗碟放进洗碗机”的指令,并自主规划路径、避开障碍、调整夹具角度。


2024年12月,灵初智能发布了首个基于强化学习的端到端具身模型Psi R0,它包含一个VLM动作规划模型Psi-P0,以及一个动作控制模型Psi-C0,该模型能在动作规划中产生思维链,并通过监测动作完成状况重新调整动作;2025年3月,灵初智能发布了升级版的具身模型Psi R0.5,进一步优化了数据训练效率,仅需两小时数据即可实现物品和场景的全面泛化。


而在今天,「甲子光年」独家获悉,灵初智能发布了其最新的端到端具身VLA模型Psi R1。


Psi R1模型同样采取了“快慢脑”的分层架构。其中快脑S1专注操作,慢脑S2专注推理规划。但不同于Pi、Figure等VLA模型,灵初智能的Psi R1模型的慢脑S2在做环境感知的时候,不只输入了VLM模型中常见的视觉和语言信息,而是连同动作信息(Action Tokenizer)也一同输入。


这其中,Action模态的输入内容包含历史动作序列、实时动作反馈、物理交互数据等。而Action Tokenizer模块则强化了多模态融合能力:将动作数据(时序、空间维度)与视觉、语言信息深度融合,构建更完整的物理世界表征。快慢脑通过Action Tokenizer隐式连接,端到端训练,协同完成长程任务的灵巧操作。


通过将Action作为VLA的核心输入端,灵初智能突破了传统具身智能系统“单向决策”的局限性,构建了全球首个支持“动作感知-环境反馈-动态决策”全闭环的VLA模型。


Psi R1模型架构,图源:灵初智能


整体来看,Psi R1模型的上层Planner应用自回归的Causal VLM架构,负责场景抽象理解、任务规划决策,经过Action Tokenizer,实现上层视觉—语言—动作三大模态的信息连接和穿透;下层Controller则专注精确控制执行,配合真机强化学习,在大多数灵巧操作任务上表现出人类水平的任意泛化与长程灵巧操作能力。


通过这种方式,Psi R1模型可以结合历史动作与当前的环境状态来理解动作的长期影响,建立起了动作与环境变化的因果链,增强了上下文理解,解决了传统VLM因缺乏动作历史导致的”短视”问题,在长程任务中有效避免了重复试错和动作误差积累。


除了将动作信息输入上层VLM模型,灵初智能Psi R1模型的第二个亮点在于,率先提出了强化学习的通用奖励函数。


灵初的创始人王启斌是机器人领域的老兵,在云迹科技和京东机器人都有过从业经历。和很多用模仿学习做控制算法的公司不同,王启斌一开始就选择了在数据效率、泛化性、鲁棒性和成本方面更有优势的强化学习作为训练方法。


在王启斌看来,强化学习由于可以做遍历的搜索,可以在与环境的交互中试出很多人都没有试过的东西,因此天花板更高,也比模仿学习更加接近“Super Human Intelligence”。


正如前文所提,数据是VLA模型的阿喀琉斯之踵。灵初智能基于强化学习,构建了一套仿真、真机、互联网一体的数据采集范式,突破了模仿学习的瓶颈,将数据的使用效率提升到极致。


具体而言,灵初智能会先通过遥操作和互联网收集等方式获得一个冷启动的数据集,先输入进模型进行模仿学习训练,接着用强化学习训练灵巧操作技能,然后结合模仿学习和强化学习,对这些场景数据里的物体、灯光、背景等要素随机化处理,提升模型的泛化能力。经过这样一轮又一轮的反复迭代,可以大幅提升模型的技能泛化表现,同时提高数据的采集利用效率。


Psi R1模型的数据架构,图源:灵初智能


在强化学习的范式下,Psi R1模型仅使用人类操作数据就能学习到人类的灵巧操作技能,让操作技能得以大规模扩展;此外,灵初智能还拥有丰富的Sim2Real经验,通过实时的动作反馈(如触觉、力觉数据),模型可以动态调整策略,以应对突发干扰。最终,动作的输入形成了“感知-决策-执行-反馈”的闭环,有效加速了模型的迭代与技能迁移。




3.更灵巧的灵巧手,更聪明的机器人


除了Psi R1模型,灵初智能此次同步发布的,还有业内唯一自带深度耦合操作算法的灵巧手PsiBot H1和双臂轮式机器人PsiBot V1。


其中,灵巧手拥有16个主动自由度,支持精细化抓取、旋转、按压等动作,覆盖捏、抓、按、提、推及复合动作(如转动、扭动),支持柱状抓握、球形抓握、多指捏夹等类人手操作,可以实现多物体抓取(夹持范围1-115mm不等)。同时,灵巧手还集成了多维度触觉传感器(覆盖指尖、掌心),可以实时反馈接触力信息;通过位置、速度、电压三模式控制,可以适配不同的操作场景(精密装配、工业搬运等)。


灵巧手PsiBot H1,图源:灵初智能


而PsiBot V1人形整机则通过与Psi R1模型的协同,软硬件耦合展现大小脑能力——拥有泛化抓取、放置、双手打包操作、使用工具、扫码、打螺栓等技能组合,在长程任务中表现出色。


人形机器人PsiBot V1,图源:灵初智能


除了灵巧手和人形机器人,灵初智能还配套发布了全国首个高自由度高度拟人灵巧手数采设备PsiBot DC 1和具身灵巧操作量身定做的数据平台Psi Data。PsiBot DC 1确保了真机数据的1:1映射采集,Psi Data则在灵初智能建设高质量数据飞轮的过程中起到了至关重要的作用。


灵巧手数采设备PsiBot DC 1,图源:灵初智能


目前,绝大多数的大模型还停留在网络上给网友画画、聊天,却不能打破屏幕,走到现实世界里。根本原因是这些大模型克服不了模态鸿沟,无法理解自身的动作,难以和环境动态交互。和环境交互的能力不仅仅是推理智能的体现,更是对具身智能体的根本要求,灵初智能自研的Psi R1模型第一次实现了CoAT(Chain of Action Thought),能够将动作模态融入大脑思考的一环中,真正实现了具身思考,并与环境进行高质量高速度的交互。


这种能力体现在灵巧手和人形机器人上,是更灵巧的操作技能,和更聪明、更拟人的表达。


搭载了Psi R1模型的灵巧手不仅能够搭乐高,还能弹钢琴、使用工具打螺栓,不同灵巧手之间还能进行抛接物体的操作。


PsiBot H1灵巧手搭乐高,视频来源:灵初智能


PsiBot H1灵巧手使用工具拧螺栓,视频来源:灵初智能


PsiBot H1灵巧手弹钢琴,视频来源:灵初智能


PsiBot H1灵巧手抛接物体,视频来源:灵初智能


而搭载了Psi R1模型的人形机器人则在动作调整、语音交互和情绪表达方面表现出了惊人的能力:


以打麻将为例,灵初智能的机器人由于VLA的自主判断能力,能够优化牌的抓取姿势,同时合理规划回合内出牌时间,能够实现一边思考,一边调整的能力。


机器人抓到牌一边进行思考一边进行调整动作,图源:灵初智能


机器人也能够根据牌局的形式,自助判断自己是否应该碰杠后,丝滑地完成碰杠的动作。


机器人完成碰杠操作,图源:灵初智能


当人类需要交互的时候,机器人会进行深入思考,根据自己的手牌和别人的反应来动态响应人类的行为。


机器人深入思考后出牌,图源:灵初智能


机器人还能够通过大脑思考调用相应的语音和表情模块表达出自己的感情;在打麻将的过程中,两个机器人还能协同操作,共同完成牌局。


机器人在别人碰杠以后能够立马改变自己的策略,同时计算出最佳的打法和胜率,图源:灵初智能


可以看到,通过将动作模态深度融入认知决策,Psi R1模型真正实现了“思考即行动”的闭环,让机器人从屏幕中的虚拟对话伙伴,进化为能精准操作物理世界、理解环境动态、甚至展现情感表达的智能生命体。




4.聚焦细分场景,All in操作机器人


不同于很多做通用人形机器人的厂商,灵初智能从创业开始就聚专用领域,从零售物流和工业制造场景入手,去做商业化的落地。


在过去20年,王启斌在黑莓手机担任过产品经理、在Sonos做过当时新兴的智能音箱业务,在云迹科技做过酒店配送机器人,还在京东X Lab做过仓储和配送机器人,在多个领域积累了深厚的操盘经验,多次实现了产品从定义、开发、上市再到全球“0-1-N”的产业闭环。


云迹科技和京东的职业履历,让王启斌看到,在机器人真正的商业化落地中,仍存在巨大的需求没有被满足,尤其是操作方面的能力。


这也是灵初智能选择轮式双臂机器人作为第一款产品的核心原因——零售物流场景大部分的动作是前置仓分拣、零售补货和1km内的端到端配送,工业场景中70%的价值创造也来自操作环节——在特斯拉超级工厂,工人每天要完成2000次精密部件抓取;在富士康iPhone产线,屏幕贴合的误差容忍度仅为0.1mm。然而,现在市场上90%的人形机器人都是移动机器人,真正能实现操作闭环的寥寥无几。


工业场景的柔性生产需求、物流场景的效率提升压力、消费者场景的拟人化期待,均要求机器人具备高自由度、智能感知与动态交互能力,这些场景对灵活性、人机协作能力、非结构化环境适应性以及任务复杂度的需求也与机器人上半身操作的特性高度契合。于是,“人形机器人必须有一双媲美人类的手”成为了王启斌的创业初心,选择双臂轮式机器人作为第一款产品也正是出于上述考量。


围绕“操作机器人”,灵初智能组织了一支高密度的人才团队:


联合创始人兼工程负责人柴晓杰是中科院自动化所博士兼助理研究员,拥有超过15年的机器人行业技术积累,是算法、仿真、工程、全栈技术专家,曾任腾讯微信/机器人系统负责人、阿里巴巴ADLab高级算法专家、京东X事业部智能驾驶技术负责人,拥有大规模L4自动驾驶技术落地经验。


联合创始人兼强化学习负责人陈源培是北京大学人工智能研究院研究助理,曾任斯坦福李飞飞实验室的访问学者,自主研发了完整机器人系统,并攻克具身智能关键难题——让双臂双灵巧手在真实环境中协同执行多技能任务。他专注于精细操作研究,实现了机器人搭积木、冲泡咖啡等类人操作,并率先通过强化学习提升了双臂协同控制能力。


同为强化学习负责人的温颖博士毕业于伦敦大学学院,现任上海交通大学人工智能学院长聘教轨副教授、博士生导师。他多次获得顶会最佳论文奖项,并担任多个国际知名会议/期刊的PC成员或审稿人、深度强化学习与决策大模型专家,在电子游戏和具身连续控制任务上有突出成果,推出了多智能体Transformer模型和多模态决策大模型DB1。


灵初智能还与北京大学成立了北大-灵初智能具身灵巧操作联合实验室,由人工智能研究院杨耀东博士担任联合实验室项目负责人开展横向课题合作,该实验室首席科学家梁一韬博士则主要负责研究具身智能体长程任务规划。至此,灵初智能不仅具有深谙产品操盘的业界资深人士,也搭建起了一个被称为“科学家密度最高”的技术队伍,努力实现团队在技术创新与商业落地上的平衡。


目前,搭载了Psi R1模型的机器人已经可以广泛应用于工业领域的来料仓检测,成品仓的包装,以及物流领域的拣选、分播供包,零售领域拣货,补货,打包等场景。灵初智能也已经和制造业,商超零售,跨境物流行业的龙头企业展开合作。同时,灵初智能还在与行业头部客户合作验证方案,推动智能机器人在医疗辅助、高端制造等场景的快速落地。


回顾具身智能的发展历程,从1957年需要人来操控Atomic Robot a Handy Guy,到1966年笨拙的Shakey,再到今天灵初智能可以弹钢琴、打麻将的机器人,我们见证了人类对赋予机器”感知-思考-行动”能力的不懈追求。这半个多世纪的旅程,是从单一能力到多模态融合的蜕变,也是从简单指令执行到复杂环境理解的跃升。


在未来,随着VLA模型的持续演进和硬件设计的进一步优化,我们有理由期待机器人能够像人类一样,在开放环境中自主学习、规划和执行复杂任务。具身智能的发展将不再局限于特定场景和预设流程,而是迈向真正的通用人工智能。灵巧操作作为机器人最接近人类能力的一环,也将成为连接虚拟智能与物理世界的关键桥梁。


(封面图来源:AI工具生成)





(文:甲子光年)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往