3月10日,智元机器人与上海人工智能实验室联合推出首个通用具身基座大模型——智元启元大模型/智元通用具身基座大模型(Genie Operator-1,简称GO-1)(文末点击阅读原文即可下载相关论文)。这一创新成果标志着智元机器人在具身智能领域迈出了重要一步。
据了解,GO-1模型基于智元机器人2024年年底发布的AgiBot World数据集开发,并开创性提出了Vision-Language-Latent-Action(ViLLA)架构,实现了利用人类视频进行学习和小样本快速泛化,显著降低了具身智能的技术门槛。
目前,GO-1模型已成功部署到智元多款机器人本体中,与机器人系统紧密结合。随着后续的持续进化和优化,GO-1模型将为具身智能技术发展带来更多前所未有的可能。
▍创新架构!ViLLA优势何在?
GO-1大模型,基于具身领域的数字金字塔所构建,吸纳了人类世界多种维度和类型的数据,让机器人在一开始就拥有了通用的场景感知和语言能力,通用的动作理解能力,以及精细的动作执行力。
数字金字塔的底层是互联网的大规模纯文本与图文数据,可以帮助机器人理解通用知识和场景。在这之上是大规模人类操作/跨本体视频,可以帮助机器人学习人类或者其他本体的动作操作模式。更上一层则是仿真数据,用于增强泛化性,让机器人适应不同场景、物体等。金字塔的顶层,则是高质量的真机示教数据,用于训练精准动作执行。
现有的VLA(Vision-Language-Action)架构,未有利用到数字金字塔中大规模人类/跨本体操作视频数据,缺少了一个重要的数据来源,导致迭代的成本更高,进化的速度更慢。
AgiBot World数据集规模庞大,包含超过100万条轨迹、涵盖217个任务和五大场景。为了有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据,增强策略的泛化能力,智元提出了 Vision-Language-Latent-Action (ViLLA) 这一创新性架构。
与 Vision-Language-Action (VLA) 架构相比,ViLLA 通过预测Latent Action Tokens(隐式动作标记),弥合图像-文本输入与机器人执行动作之间的鸿沟,能有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据,增强策略的泛化能力。目前,ViLLA在真实世界的灵巧操作与长时间任务执行方面表现卓越,远超越现有开源SOTA模型。
具体来说,ViLLA架构由VLM(多模态大模型) + MoE(混合专家)组成。其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。在推理时,VLM、Latent Planner和Action Expert三者协同工作。
具体来说,VLM作为通用具身基座大模型的主干网络,继承开源多模态大模型InternVL2.5-2B的权重,利用互联网大规模纯文本和图文数据,让GO-1大模型具备了通用的场景感知和理解能力。隐动作专家模型作为第一个专家模型,是GO-1大模型中隐式的规划器,它利用到了大规模人类操作和跨本体操作视频,让模型具备动作的理解能力。GO-1大模型的最后是作为动作预测器的动作专家模型,它利用高质量的仿真数据、真机数据,让模型具备了动作的精细执行能力。
▍成功率提高32%!GO-1模型大幅领先
在ViLLA架构的助力下,GO-1大模型通过结合人类和多种机器人数据,赋予了机器人革命性的学习能力和泛化能力,使其能够泛化应用到各类的环境和物品中,快速适应新任务、学习新技能。同时,GO-1大模型还支持部署到不同的机器人本体,高效地完成落地,并在实际的使用中持续不断地快速进化。
总的来说,GO-1大模型的一系列优越性可以归纳为4个方面:一是人类视频学习能力,它能够结合互联网视频和真实人类示范进行学习,增强对人类行为的理解,从而更好地为人类服务;二是小样本快速泛化能力,即使在极少数据甚至零样本的情况下,也能泛化到新场景、新任务,大大降低了具身模型的使用门槛;三是一脑多形的迁移能力,作为通用机器人策略模型,它能够在不同机器人形态之间迁移,快速适配到不同本体,实现群体升智;四是持续进化的能力,搭配智元一整套数据回流系统,可以从实际执行中遇到的问题数据中持续进化学习,越用越聪明。
为了验证GO-1大模型的优越性,智元机器人在五种不同复杂度的任务上进行了实验测试。这些任务涵盖了从简单的物品操作到复杂的场景理解,全面考验了机器人的智能化水平。实验结果显示,相比已有的最优模型,GO-1大模型的成功率大幅领先,平均成功率提高了32%(从46%提升到78%)。其中,“Pour Water”(倒水)、“Table Bussing”(清理桌面)和“Restock Beverage”(补充饮料)等任务的表现尤为突出,充分展示了GO-1大模型在实际应用中的强大能力。
此外,智元机器人还单独验证了ViLLA架构中Latent Planner的作用。通过增加Latent Planner,机器人的成功率进一步提升了12%(从66%提升到78%),这充分说明了GO-1大模型在架构设计和算法优化方面的先进性。
▍结语
GO-1大模型的推出,不仅标志着具身智能向通用化、开放化、智能化方向快速迈进,更预示着机器人行业将迎来一场深刻的变革。从单一任务到多种任务、从封闭环境到开放世界、从预设程序到指令泛化,GO-1大模型让机器人具备了更加全面和智能的能力,使其能够在商业、工业、家庭等多领域发挥更大的作用。
展望未来,GO-1大模型必将加速具身智能的普及进程,推动机器人从依赖特定任务的工具向着具备通用智能的自主体发展。我们有理由相信,在GO-1大模型的引领下,具身智能行业将迎来更加辉煌的未来,通向更加通用全能的智能时代。
(文:机器人大讲堂)