
极市导读
jrm!稚晖君这次真的放大招了! >>加入极市CV技术交流群,走在计算机视觉的最前沿

稚晖君所在的智元 X-Lab 正式上线了史上最复杂的具身智能项目——灵犀 X2!
发布前,官方先是放出“烟雾弹”,预告将发布三款机器人,分别拥有以下能力:
-
双足人形机器人:运动能力超强,能骑自行车能跳舞! -
智能交互机器人:搭载情感计算引擎,更有人情味! -
具身机器人:初步具备通用任务执行能力,保姆、保安、保洁、三保合一时代来临!
今早早上稚晖君揭晓真相: 一款机器人-灵犀 X2,它集齐了上述所有机器人的能力!
正式介绍之前,先给大家来几个机器人震惊小鹿的精彩瞬间:
超轻盈骑自行车:

用针缝葡萄:

稚晖君介绍,这次机器人的硬件系统像飞控去攒一套无人机航模一样,抽象出了一系列可复用的核心组件:
(1)小脑控制器 Xyber-Edge

(2)域控制器 Xyber-DCU

(3)智能电源管理系统 Xyber-B

(4)核心关键模组 PowerFlow 等

在运动控制算法方面,灵犀 X2 机器人摒弃了传统的基于模型的控制方法,转而采用学习驱动的强化学习策略。通过深度融合强化学习与模仿学习算法的优势,机器人可以掌握复杂运动技能,例如驾驶滑板车和平衡车。

此外,该系统还采用了智能体学习驱动的范式。
从每秒数万次的环境交互和动作数据中自主学习,并优化运动控制策略,突破运动性能瓶颈。
在交互智能方面,灵犀 X2 机器人搭载了基于 Diffusion (扩散模型)的生成式动作引擎,使其不仅具备强大的运动能力,更拥有高度智能化的交互能力。
研发团队坚持以理解人性为核心的交互设计理念,为 X2 训练了多模态交互大模型——硅光动语 ,这使得灵犀 X2 成为一台真正具备复杂交互能力,感知理解和认知世界的能力的灵动机器人。此外,得益于边缘侧大脑的端到端模型架构以及大量的工程优化,X2 实现了毫秒级的交互响应速度。
在视频展示中,能够 0 帧起手快速读取药品说明书,充分体现了其在复杂视觉信息处理和实时交互响应方面的强大性能!

除了功能上的显著提升,为了赋予灵犀 X2 更富人性化的特质,让它更有“人情味儿”,研究团队还在动作模态方面进行了精细的设计,为机器人融入了呼吸的韵律、人类的注意力机制等细节,使其行为举止更加自然生动:

稚晖君指出,人类对于理想机械伙伴的憧憬从未止步。 他强调,情感交互能力对于具身机器人至关重要。 因此,智元 X-Lab 将 Reaction-Agent 作为情感计算引擎,赋予了灵犀 X2 情感感知能力。
例如视频里,在问它:“与狗落水先救谁” 的伦理问题时,机器人能回答出符合人类价值观的回答。
除灵犀 X2 机器人本体外,智元 X-Lab 在本次发布中还宣布 开源具身智能仿真数据集,并同步发布了 RoboDual 大小脑系统架构 以及 最新 ViLLA 架构具身基座大模型 “启元” (GO-1)。 灵犀 X2 的核心能力其实就是源于 “启元” (GO-1) 基座大模型,通过 融合多模态大模型 (VLM) 与混合专家系统 (MoE),有效突破了传统具身智能的四大瓶颈。
-
泛化性不足 -
跨本体适配性差 -
数据利用率低 -
缺乏持续进化机制

(1) 感知层:实现多维信号整合与毫秒级场景理解
采用 InternVL-2B 模型整合多视角视觉、力觉反馈及语音输入,实现 毫秒级场景理解。 这种多模态感知能力赋予机器人 全面、精准的环境感知,为后续规划和决策提供 可靠依据。
例如,在复杂工业生产线上,灵犀 X2 能够 快速识别零件、设备位置与状态,以及工人操作意图,实现高效协同作业。
(2)规划层:Latent Planner 生成任务链优化任务执行流程
规划层搭载 GO-1 大模型的 Latent Planner 组件,通过 隐式动作标记 (Latent Action Tokens) 生成任务链,将复杂任务 分解为可执行的子任务。

例如, “叠衣服” 系统可将其细化为感知形状、调整角度等步骤,动态调整执行顺序和参数。
(3)执行层:Action Expert 生成精细动作序列
执行层由 Action Expert 组件 驱动,该组件基于百万级真机数据训练,能够生成 精细动作序列,

例如:在 “倒水” 任务中,其误差可控制在 ±3ml 以内,满足日常生活及工业生产的 高精度操作需求。
通过性能表现:GO-1 平均成功率提升 32%,生活场景任务成功率高达 78%

在五项标准任务测试中,GO-1 平均成功率较行业最优模型提升 32%。 其中,“倒水”、“清理桌面” 等生活场景任务成功率高达 78%,展现出 强大的通用性和实用性,
结语
总有人说人形机器人是浪漫主义陷阱,仿佛是对技术进步方向的误判。 然而,历史的车轮滚滚向前,总是在质疑声中碾压出新的道路。
莱特兄弟的飞机曾被嘲笑为异想天开,图灵的计算机也一度被视为庞大而无用的怪物。
如今看来,那些看似遥不可及的梦想,都成为了划时代的现实。
具身智能的发展亦是如此,它并非空中楼阁,而是技术演进的必然方向。 它承载着人类对自身能力延伸的渴望,对更智能、更人性化工具的追求。 与其说是浪漫主义的陷阱,不如说是人类理性与想象力交织的必然产物~
它预示着一个全新的智能时代即将到来,一个机器与人更紧密协作、共同进化的未来正在展开。
(文:极市干货)