AI与硬件不可偏废,智元称不做大模型的机器人公司没有未来


文| 杨柳

“(人形机器人公司)真正重要的是同时做硬件和AI,而且要让它们能够很好地整合在一起。”近期一场对话中,美国当红人形机器人公司Figure AI创始人布雷特·阿德考克(Brett Adcock)强调,软硬件一体,不可偏废。
阿德考克还谈及,中国的机器人公司关注硬件,但不在乎AI。实际上,同步发力AI与硬件,正在成为中国头部人形机器人企业的战略选择。
3月10日,智元合伙人、具身业务部总裁、研究院执行院长姚卯青接受采访时说,人形机器人赛道上,“偏科”的公司较多。有些公司特别擅长算法,但硬件制造能力较弱,这会严重限制对算法研发的验证;另有大量机器人本体公司,对AI投入比较受限。智元则追求硬件和AI的完整布局,这是一家2023年2月在上海注册成立的人形机器人“独角兽”公司。
的确有中国的机器人公司把重心置于硬件。去年8月,宇树科技创始人王兴兴受访时表示,具身智能大模型的研发太烧钱,宇树科技对此选择谨慎投入。之所以态度保守,也是考量到机器人具身模型的技术路线目前仍不像大语言模型那么清晰,不能在技术路线模糊的时候乱投入。但王兴兴补充强调,宇树科技依然会继续关注和研发具身智能大模型,因为硬件为AI服务,一旦对具身智能模型缺乏了解,很难做出好的人形机器人本体。
相较于宇树科技在具身智能大模型上的审慎心态,姚卯青称,智元把具身智能研发作为公司的战略级投入领域。
“机器人公司如果不做大模型,那是没有未来的。没有智能化,就没有作业能力。”姚卯青认为,AI能力将来一定是区分机器人产品竞争力的关键因素,就像当前的新能源汽车和手机等终端一样,随着硬件方案逐渐趋于一致,供应链高度整合,“最后比拼的一定是AI能力”。
智元的人形机器人。图:智元公司
3月10日,智元发布首个通用具身基座大模型GO-1。据公司介绍,这款具身智能模型最大的创新在于架构变化。智元GO-1提出了Vision-Language-Latent-Action (ViLLA) 架构,该架构由VLM(多模态大模型)+ MoE(混合专家模型)组成。
其中,VLM利用海量互联网纯文本与图文数据的学习中,帮助机器人理解通用知识和场景。MoE则由两组“专家”组成:Latent Planner(隐式规划器)借助大量的人类和其他机器人本体的操作数据,获得通用的动作理解能力;Action Expert(动作专家)则借助仿真数据和真机采集的数据,获得精细的动作执行能力。
“构建了从通用场景感知、指令理解、动作理解到动作最终执行的全链条。”姚卯青用人类学习乒乓球的进阶过程类比说,VLM之于机器人的作用,好比上乒乓球的基础理论课,从图文指导中形成对乒乓球招式的初步理解。Latent Planner(隐式规划器)的角色,类似于给初学者观看乒乓球世界冠军打比赛的炫酷视频。Action Expert(动作专家)利用仿真数据,好比使用发球机进行模拟学习;利用真机数据的训练,则如同请乒乓球教练手把手示教。
具身智能模型的四类训练数据。图:智元公司
智元具身研究中心常务主任任广辉表示,目前市场上的具身智能模型存在诸多落地难题。比如,以斯坦福的ACT为代表的具身智能小模型,没有利用大规模的图文和操作视频训练,技能单一且无法学习新技能;基于视觉-语言-动作多模态大模型(Vision-Language-Action,VLA)构建的具身智能模型,虽然学习了大量图文数据,具备场景感知和指令理解能力,但未有利用到大规模的人类和和其他机器人本体的操作视频数据,缺少了一个重要的数据来源,导致迭代的成本更高。
智元发布的实验数据显示,相比已有的最优模型,GO-1成功率平均成功率提高了32%,从46%提升至78%。
“GO-1大模型将使机器人向着具备通用智能的自主体发展。”智元方面称,GO-1具备更强的泛化能力,降低了具身模型的使用门槛。而且,这款具身智能模型搭配一整套数据回流系统,用于反馈场景测试中的错误数据,公司再将其列入后续的模型训练,实现模型迭代。
智元还在寻求和头部大模型公司来开发具身智能模型。2月下旬,阶跃星辰宣布与智元达成战略合作,共同探索AI+具身机器人应用场景。据智元介绍,后续双方的合作,围绕阶跃的多模态、推理和训练等底层平台能力展开,将其赋能到机器人上。
当前,开发具身智能大模型的数据采集路线也存在分歧。银河通用等公司倾向于合成数据,但许多公司仍视真机数据为解决数据瓶颈的重要手段。为此,智元在上海专门建设了一座数据采集工厂,投放近百台机器人,日均采集3万至5万条真机数据。另外,智元还针对工业场景开展概念验证项目(POC),前往工厂实地采集数据。
2025年被业内视为“量产元年”。1月初,智元宣布已累计下线1000台通用具身机器人。其中,双足人形机器人731套,轮式通用机器人269套。姚卯青透露,千台机器人中,有数百台出货给客户,其余的作为研发样机。
姚卯青预估,今年公司的出货量会达到数千台的规模,而营收相较去年会实现数倍的增长,推进科研教育、服务业等场景的布局。

(文:AI前哨站)

欢迎分享

发表评论