跳至内容

文| 林文琪 马宁宁 田爱丽
3月10日,由离职华为天才少年“稚晖君”彭志辉等多位业内资深人士联合创立的智元机器人公司,发布了其首个通用具身基座模型——智元启元大模型GO-1,随后发布能“拿针给葡萄穿线”、会骑自行车的人形机器人灵犀X2。
近期,南方都市报“走进未来产业”调研团队走进位于上海浦东新区的上海智元新创技术有限公司,探访了被称为“机器人培训学校”的数据采集中心,并对话智元合伙人、具身业务部总裁、研究院执行院长姚卯青。
挥舞着机械臂和灵巧手学习换桌布、刷马桶、切面团、做沙拉、整理衣柜、打包礼物……在智元机器人4000平方米的数据采集厂中,一批“待上岗”的机器人正在不同的房间和场景中依次进行上述或居家、服务的工作,他们动作缓慢而谨慎,常常失败但仍不断重复学习。在每一个机器人的背后,都有一位老师在教导它们正确完成每个动作。
这就是智元数采厂的日常,也被业内戏称为“机器人培训学校”。据了解,现在智元数据采集工厂投放了近百台机器人,日均采集30000—50000条数据,目前该数采工厂模拟了家庭、零售、服务业、餐饮、工厂5个日常场景。
成立于2023年2月的智元机器人,由彭志辉在内的多位业内资深人士联合创立。智元机器人方面告诉南都记者,该公司不仅为机器人打造了一流的通用机器人本体和硬件技术,还配备了AI算法与全栈软件,这使得人形机器人有通用任务能力,可实现交互服务。
2024年,智元机器人发布了G1至G5的具身智能技术演进路线,该演进路线也被上海政府纳入《具身智能智能化发展阶段分级指南》。其中,G3层级开始走向数据驱动端到端,进一步形成了一套通用的训练框架,学习一个新技能后只需要采集相应数据就能实现更通用跨类别的泛化能力;随着数据量的进一步增加,G4演变为一个通用的操作大模型,结合认知推理规划大模型,来实现端到端通用操作;G5则是一个长期牵引目标,最终形成一个真正的感知、决策、执行的端到端大模型。
3月11日,智元机器人发布了最新搭载情感计算引擎的双足智能交互人形机器人灵犀X2。目前,该机器人已集齐运动、交互、作业三方面的智能功能。在智元发布的视频中,该机器人能更进一步拿着针线缝合葡萄皮、像人一样转动和走路,还学会了“偷瞄”。
当面对来自B站大神“稚晖君”的灵魂拷问“你和狗同时掉水里应该先救谁”时,X2毫不犹豫地回答先救狗狗,“因为它需要帮助”。
截至目前,智元机器人已发布多款产品,2023年8月智元机器人发布了第一代通用型具身智能机器人原型机远征A1;去年8月,智元机器人一口气推出5款商用人形机器人:远征A2、远征A2-W、远征A2-Max、灵犀X1及灵犀X1-W。
其中,远征A2在发布会上担当了主持人的角色,远征A2-W则在现场和智元创始人彭志辉一起展示了机器人模仿人类榨果汁的过程:在彭志辉发出“榨一杯葡萄可乐”的指令后,只见远征A2-W准确从桌上的番茄、李子和葡萄中识别到了葡萄,并拿起了开瓶器给玻璃罐可乐开瓶,随后点击榨汁机做起了饮料。据悉,5款人形机器人已在交互服务、柔性智造、特种作业、科研教育及数据采集等场景开启商用量产。
对于大多数初创公司而言,花费大笔资金建造一座工厂仅用于数据采集是件风险巨大的事情,但数据采集工厂搭建对应的是行业内存在着缺乏通用平台的共性问题。
今年全国两会,十四届全国政协委员、天娱数科CEO贺晗接受南都记者采访时就提到,行业内目前尚缺算法(大脑、小脑)通用开发平台、通用3D数据平台、通用标准认证平台和通用场景测试平台,这些方面的缺乏将影响行业内的成本和迭代效率。事实上在行业内,算力和数据是目前机器人研发投入最大的两个方面。
作为行业首个实现规模化量产的机器人厂商,3月10日,智元推出了其首个通用具身基座模型——智元启元大模型GO-1。此前智元已将机器人量产环节走完,用量产后的大规模机器人编队采集了百万级高质量数据。
大模型对于机器人实现具身智能到底有何用处?事实上在AI大模型出现以前,机器人的思维能力十分有限,只能局限于指令动作且听不懂自然语言。但随着以ChatGPT为代表的AI大模型产品取得突破,传统机器人的能力也逐渐被“解封”了。比如,大模型通过融合多模态信息(如视觉、语言、触觉等),能使具身智能能够更全面地感知和理解环境。
“对机器人公司来说,你如果不做大模型是没有未来的,没有智能化、没有作业能力的机器人只是一个硬件,能做的事情非常有限。就像新能源车和手机行业一样,硬件会收敛,供应链会整合,最后拼的是智能化。”智元合伙人、具身业务部总裁、研究院执行院长姚卯青告诉南都记者,未来AI能力一定是区分机器人产品竞争力的核心环节,智元已经将AI方面的研发提升到了战略层面。
据悉,GO-1大模型可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解;同时还能实现在极少数据甚至零样本下泛化到新场景、新任务,降低具身模型的使用门槛和训练成本;另外,GO-1大模型能够在不同机器人形态之间迁移,快速适配到不同本体,还可以搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习。
在机器人技术方向上,他认为其还处于比较早期的阶段,没有到收敛的程度,比如受制于数据的问题,机器人行业还无法完成完整的验证,这也是智元希望去主动开源的原因。去年12月,智元机器人宣布开源汇集百万真实机器人数据的开源数据集AgiBot World(智元世界),该包含超过100万条轨迹、涵盖217个任务、涉及五大场景。此次发布GO-1的同时,智元也将技术博客、论文完全公开。据悉在今年第一季度内,智元机器人还会面向核心用户开源GO-1模型。
姚卯青也坦言,大模型在机器人的应用落地会经历一个渐进式的过程。“会从一些较为容易入手、结构化场景较为明确的场景先进行落地探索,然后逐渐演化到一些半结构化和半开放的任务和场景,最终通过我们在各个行业、各个场景落地过程中收集到的数据,以及和人类交互的数据,才能真正实现通用人工智能在物理世界的应用,到那时候才谈得上真正走入千家万户,在家庭中执行各类开放式的指令任务。”
除了数据以外,目前机器人量产仍面临技术、成本、市场、产业链等多方面的挑战。宇树科技CEO王兴兴去年在接受媒体采访时表示,哪怕公司已经做了有8年、有好几款产品的量产经验,但公司要量产一款产品还是有压力的。
在量产方面,南都记者了解到,2024年10月智元已下线100台机器人。另外截至2025年1月6日,智元通用具身机器人累计下线1000台。姚卯青提到,目前的产量中有70%都对外售卖,预估行业内2025年头部企业总体出货量将达到几万台,2026年头部企业出货总体出货量将再往上走一个数量级达到10万台。
谈及智元的量产速度,姚卯青表示,从智元自身的角度看,机器人生成要达到量产,不仅要有好的设计和研发,还需要有强大的供应链管理和生成制造能力。目前,智元机器人团队成员来自各行各业,包括车辆、通信和消费电子,大部分同事都有大规模产品量产的交付经验。另外从市场角度看,姚卯青认为目前机器人产业发展已经进入加速阶段。
他还提到,目前智元也面临着不少强有力竞争对手的挑战,包括具备人才、资金储备、完备制造能力的车企等。在这个阶段,智元期待形成自己的规模效应,把供应链和生产体系建立到一个相对完备的状态,等待人形机器人爆发的拐点时刻到来。
姚卯青认为2025年将是大规模的“商业化元年”,据介绍,目前智元除了已有的旧工厂和产线以外,也在布局和建设更多产线。除此以外,智元也与不少工厂达成了合作生产伙伴关系。“我们跟他们会有比较深度的合作,由我们来规划整个的质量规划、标准测试的工序,同时我们也会把控生产工艺、生产SOP等方面”。
另外在2月21日,智元与大模型“六小虎”之一的阶跃星辰达成战略合作,据悉双方将共同探索AI+具身机器人应用场景。姚卯青透露,后续围绕阶跃的多模态、推理和训练、工程化等底层模型能力,进行深度的合作,将阶跃星辰多模态等能力赋能到机器人上面。
近期,业内售价9.9万元机器人引起广泛关注。姚卯青提到,机器人技术和供应链目前还处于比较早期的阶段,远没有到收敛的程度,此时“卷价格战”毫无意义。“这个阶段还是要以价值为导向,让机器人能真正做软件硬件协同配合产生效果,而不是买一个大号的电动玩具”。
(文:AI前哨站)