稚晖君再放大招!智元机器人发布首个通用具身基座模型:实现不同形态机器人丝滑迁移,具身智能门槛狂降


 

前华为天才少年稚晖君的公司智元刚刚发布了 首个通用具身基座模型,名叫 启元大模型Genie Operator-1,简称 GO-1

GO-1 背后,是智元提出的全新 Vision-Language-Latent-Action (ViLLA) 架构。 简单来说,就是把之前的 VLA 架构给进化了,多了一个 “L” – Latent(隐式),可以利用人类视频学习,完成小样本快速泛化

而且稚晖君还透露明天还有惊喜

下面给大家划个重点

ViLLA架构

我们都知道,具身智能的关键在于让机器人像人一样感知环境、理解指令、并做出行动。 之前的 VLA 架构虽然能让机器人 “看到” 和 “听懂”,但在真正执行复杂动作时,中间总感觉隔着一层。 而 ViLLA 的创新之处,就在于它引入了 “隐式动作标记 (Latent Action Tokens)” 这个概念,巧妙地弥合了 “感知-理解” 到 “执行” 之间的鸿沟

ViLLA 架构的核心构成是 VLM (多模态大模型) + MoE (混合专家模型)。 这俩组合拳打出来,效果杠杠的:

  • • VLM (多模态大模型): 就像机器人的 “通用大脑”,用海量互联网图文数据训练,负责场景感知和语言理解。 智元这次直接用了 InternVL-2B,实力可见一斑。
  • • MoE (混合专家模型): MoE 内部又分为两组专家:
    • • Latent Planner (隐式规划器): 它利用大量的 跨本体和人类操作视频数据,学习 通用的动作理解和规划能力。 可以理解为机器人的 “策略中枢”,知道在不同情况下应该怎么做。
    • • Action Expert (动作专家): 专注于 精细的动作执行,背后是 百万真机数据的喂养。 相当于机器人的 “精细操作手”,确保动作的精准和流畅。

三者协同工作,环环相扣: VLM 负责 “看懂”,Latent Planner 负责 “想明白怎么做”,Action Expert 负责 “精准执行”。 这套组合拳打下来,机器人就能像模像样地完成各种复杂任务了。

隐式规划器 (Latent Planner) 是 ViLLA 的精髓

为什么说 ViLLA 架构中的 Latent Planner 是点睛之笔? 因为高质量的机器人真机数据虽然重要,但数量始终有限,远不如互联网数据那样海量。 智元很聪明地采用了 “隐式动作 (Latent Actions)” 的方法,让模型能够从海量的异构数据源 (包括人类操作视频) 中学习 真实世界的动作知识,并迁移到机器人操作任务中。

为了实现这一点,智元还专门设计了 Latent Action Model (LAM,隐式动作模型)。 LAM 通过编码器-解码器结构,学习当前帧和历史帧之间的 隐式变化,并用 Latent Planner 预测这些隐式动作。 这种方法巧妙地解决了数据量不足的问题,让模型能够 “站在巨人的肩膀上” 学习。

Action Expert 保证动作的灵巧性

除了 Latent Planner,ViLLA 架构的另一个亮点是 Action Expert (动作专家)。 为了让机器人能够 高频率、高灵巧度地操控,智元引入了 Action Expert,并采用 Diffusion Model (扩散模型) 作为目标函数,来建模低层级动作的连续分布。 Action Expert 与 Latent Planner 结构类似,也与 VLM 主干网络共享 Transformer 结构,但使用独立的 FFN 和 Q/K/V/O 投影矩阵。 它通过 Denoising Process (去噪过程) 逐步回归动作序列,保证动作的精细和流畅。

实验效果惊艳:成功率大幅提升

ViLLA 架构的效果如何? 实验数据说话! 智元在五种不同复杂度的任务上测试 GO-1,结果显示,相比已有的最优模型,GO-1 的平均成功率提高了 32% (46% -> 78%)! 尤其在 “倒水”、“清理桌面” 和 “补充饮料” 等任务上,表现尤为突出。 更值得一提的是,单独验证 Latent Planner 的作用时,发现 增加 Latent Planner 可以提升 12% 的成功率 (66% -> 78%)。 这充分证明了 ViLLA 架构和 Latent Planner 的有效性

写在最后

GO-1 的发布,不仅仅是一个模型,更是具身智能发展的一个新里程碑。 它展现了四大关键特点:

  1. 1. 人类视频学习: GO-1 可以学习互联网视频和人类示范,更好地理解人类行为,从而更好地为人类服务
  2. 2. 小样本快速泛化: 强大的泛化能力让 GO-1 能够在极少数据甚至零样本下泛化到新场景、新任务,大大降低了具身智能的使用门槛
  3. 3. 一脑多形: GO-1 是通用机器人策略模型,可以在不同机器人形态之间迁移,快速适配不同本体,实现群体升智
  4. 4. 持续进化: 搭配智元的数据回流系统,GO-1 可以在实际使用中不断学习进化,越用越聪明

参考:

paper:

https://agibot-world.com/blog/agibot_go1.pdf

https://www.bilibili.com/opus/1042547317663596551?spm_id_from=333.1387.0.0

 



(文:AI寒武纪)

欢迎分享

发表评论