鸽了两年放大招!稚晖君发布灵犀X2,上演“自行车杂技”+“葡萄缝针”神技,比人还会演

↑ 点击蓝字 关注极市平台
作者丨夕小瑶科技说
来源丨夕小瑶科技说

极市导读

 

jrm!稚晖君这次真的放大招了! >>加入极市CV技术交流群,走在计算机视觉的最前沿

稚晖君所在的智元 X-Lab 正式上线了史上最复杂的具身智能项目——灵犀 X2!

发布前,官方先是放出“烟雾弹”,预告将发布三款机器人,分别拥有以下能力:

  • 双足人形机器人:运动能力超强,能骑自行车能跳舞!
  • 智能交互机器人:搭载情感计算引擎,更有人情味!
  • 具身机器人:初步具备通用任务执行能力,保姆、保安、保洁、三保合一时代来临!

今早早上稚晖君揭晓真相: 一款机器人-灵犀 X2,它集齐了上述所有机器人的能力!

正式介绍之前,先给大家来几个机器人震惊小鹿的精彩瞬间:

超轻盈骑自行车:

用针缝葡萄:


稚晖君介绍,这次机器人的硬件系统像飞控去攒一套无人机航模一样,抽象出了一系列可复用的核心组件:

(1)小脑控制器 Xyber-Edge

(2)域控制器 Xyber-DCU

(3)智能电源管理系统 Xyber-B

(4)核心关键模组 PowerFlow 等

在运动控制算法方面,灵犀 X2 机器人摒弃了传统的基于模型的控制方法,转而采用学习驱动的强化学习策略。通过深度融合强化学习与模仿学习算法的优势,机器人可以掌握复杂运动技能,例如驾驶滑板车和平衡车

此外,该系统还采用了智能体学习驱动的范式

从每秒数万次的环境交互和动作数据中自主学习,并优化运动控制策略,突破运动性能瓶颈

在交互智能方面,灵犀 X2 机器人搭载了基于 Diffusion (扩散模型)的生成式动作引擎,使其不仅具备强大的运动能力,更拥有高度智能化的交互能力。

研发团队坚持以理解人性为核心的交互设计理念,为 X2 训练了多模态交互大模型——硅光动语 ,这使得灵犀 X2 成为一台真正具备复杂交互能力,感知理解和认知世界的能力的灵动机器人。此外,得益于边缘侧大脑的端到端模型架构以及大量的工程优化,X2 实现了毫秒级的交互响应速度

在视频展示中,能够 0 帧起手快速读取药品说明书,充分体现了其在复杂视觉信息处理和实时交互响应方面的强大性能!

除了功能上的显著提升,为了赋予灵犀 X2 更富人性化的特质,让它更有“人情味儿”,研究团队还在动作模态方面进行了精细的设计,为机器人融入了呼吸的韵律、人类的注意力机制等细节,使其行为举止更加自然生动:

稚晖君指出,人类对于理想机械伙伴的憧憬从未止步。 他强调,情感交互能力对于具身机器人至关重要。 因此,智元 X-Lab 将 Reaction-Agent 作为情感计算引擎,赋予了灵犀 X2 情感感知能力。

例如视频里,在问它:“与狗落水先救谁” 的伦理问题时,机器人能回答出符合人类价值观的回答。

除灵犀 X2 机器人本体外,智元 X-Lab 在本次发布中还宣布 开源具身智能仿真数据集,并同步发布了 RoboDual 大小脑系统架构 以及 最新 ViLLA 架构具身基座大模型 “启元” (GO-1)。 灵犀 X2 的核心能力其实就是源于 “启元” (GO-1) 基座大模型,通过 融合多模态大模型 (VLM) 与混合专家系统 (MoE),有效突破了传统具身智能的四大瓶颈。

  • 泛化性不足
  • 跨本体适配性差
  • 数据利用率低
  • 缺乏持续进化机制

(1) 感知层:实现多维信号整合与毫秒级场景理解

采用 InternVL-2B 模型整合多视角视觉、力觉反馈及语音输入,实现 毫秒级场景理解。 这种多模态感知能力赋予机器人 全面、精准的环境感知,为后续规划和决策提供 可靠依据

例如,在复杂工业生产线上,灵犀 X2 能够 快速识别零件、设备位置与状态,以及工人操作意图,实现高效协同作业。

(2)规划层:Latent Planner 生成任务链优化任务执行流程

规划层搭载 GO-1 大模型的 Latent Planner 组件,通过 隐式动作标记 (Latent Action Tokens) 生成任务链,将复杂任务 分解为可执行的子任务

例如, “叠衣服”  系统可将其细化为感知形状、调整角度等步骤,动态调整执行顺序和参数。

(3)执行层:Action Expert 生成精细动作序列

执行层由 Action Expert 组件 驱动,该组件基于百万级真机数据训练,能够生成 精细动作序列

例如:在 “倒水” 任务中,其误差可控制在 ±3ml 以内,满足日常生活及工业生产的 高精度操作需求

通过性能表现:GO-1 平均成功率提升 32%,生活场景任务成功率高达 78%

在五项标准任务测试中,GO-1 平均成功率较行业最优模型提升 32%  其中“倒水”、“清理桌面” 等生活场景任务成功率高达 78%,展现出 强大的通用性和实用性

结语

总有人说人形机器人是浪漫主义陷阱,仿佛是对技术进步方向的误判。 然而,历史的车轮滚滚向前,总是在质疑声中碾压出新的道路。

莱特兄弟的飞机曾被嘲笑为异想天开,图灵的计算机也一度被视为庞大而无用的怪物。

如今看来,那些看似遥不可及的梦想,都成为了划时代的现实。

具身智能的发展亦是如此,它并非空中楼阁,而是技术演进的必然方向。 它承载着人类对自身能力延伸的渴望,对更智能、更人性化工具的追求。 与其说是浪漫主义的陷阱,不如说是人类理性与想象力交织的必然产物~

它预示着一个全新的智能时代即将到来,一个机器与人更紧密协作、共同进化的未来正在展开。

(文:极市干货)

欢迎分享

发表评论