对话智源王仲远:具身智能“小组赛”才刚刚开打,机器人需要“安卓”而非 iOS

悟道 1.0 发布时,学术界对“大模型是通往 AGI 的技术路线”尚未得出统一结论。

现在的具身智能,也处于这个阶段。

作者 | 王启隆
出品丨AI 科技大本营(ID:rgznai100)

大模型的热潮之下,一种微妙的瓶颈感,正成为行业共识。

“过往所说的 ‘百模大战’,更多是大语言模型的竞争,” 智源大会前夕,智源研究院院长王仲远与 CSDN 的对话中,开门见山地指出了问题的核心,“而大语言模型受限于互联网数据的使用,性能虽然还在提升,但速度已大不如前。”

出路何在?在王仲远看来,AI 要突破天花板,就必须在“读万卷书”(互联网数据)后,去“行万里路”(物理世界)。

这并非孤立的判断。今年三月,英伟达 CEO 黄仁勋就在 GTC 大会上为 AI 的下半场指明了方向:打造“AI 工厂”,迎接“物理 AI”时代,让 AI 走出屏幕,与现实世界交互。

思考趋于一致,行动便接踵而至。6 月 6 日,CSDN 在北京智源大会现场,见证了王仲远在他的主题演讲中给出的答案。如果说 2021 年的“悟道”系列代表着对技术路径的探索(“”),那么他所揭晓的全新“悟界”系列,则亮明了新的野心——用 AI 突破虚拟与现实的边界(“”)。

通往这个新世界的桥梁,是多模态

“我们去年就预判,大模型会从语言模型走向多模态,尤其是「原生多模态世界模型」,它最终的目的,就是为了让 AI 感知和理解物理世界,进而与这个世界交互,最终推动具身智能的发展。” 王仲远在对话中,向我们揭示了这条技术路线的本质。

“悟界”并非单一模型,而是一套旨在全面解构、交互物理世界的组合拳:

  • 原生多模态世界模型 Emu3,这是一个试图用统一架构理解文本、图像、视频的“通用感官”;

  • 跨本体具身大小脑协作框架 RoboOS 2.0 与具身大脑 RoboBrain 2.0,是智源打造“机器人安卓生态”的野心所在;

  • 脑科学模型见微 Brainμ,则堪称最具科幻色彩的一笔,它将 AI 的触角伸向了我们的大脑,试图解码脑电波这一全新的模态;

  • 全原子生命模型 OpenComplex2,则像一台深入微观世界的显微镜,在原子层面模拟生命的动态,探索其本质。

从原子到大脑,再到机器人,“悟界”系列是智源对物理世界下的一场全栈式豪赌。但这场豪赌背后,并非只有产品的发布,更有深度的哲学思考。在与王仲远的对话中,我们得以一窥其蓝图的全貌。

具身智能的“循环悖论”,和一个小女孩的启示

迈向物理世界,具身智能是绕不开的核心。然而,王仲远坦言,这个领域正深陷一个棘手的“循环悖论”:硬件不成熟,导致高质量的真实数据稀缺;数据稀缺,使得模型能力羸弱;模型能力弱,又导致商业化落地困难,从而无法反哺硬件的迭代和量产。

这几乎是一个死循环。如何打破它?

我再次想到了英伟达。今年除了黄仁勋的演讲,GTC 还开设了一场机器人圆桌论坛,盛请四家欧美机器人龙头企业老板对此展开激辩,有的认为需要十年,有的认为专用机器人会先行一步,还有人直指未来的星辰大海,聊起了星际旅行。

但王仲远分享了一个更极具启发性的观察,他认为解法或许藏在我们的日常生活中。

“今年春节,我观察到一个小女孩,没有任何大人教她,她只是刷了很多短视频,就学会了自己拆糖果、撕开包装纸,甚至能把五颗蓝莓精准地串在一根牙签上。”

这个场景极具启发性:小女孩通过观看海量的视频(互联网数据),在大脑中形成了对任务的理解和规划,然后再通过自己的小手去实践(强化学习),失败几次,最终成功。这与大模型的发展路径不谋而合——通过海量数据预训练获得基础能力,再通过强化学习激发更高阶的智能。

智源选择的正是这样一条路径:让机器人看“短视频”学习技能。利用互联网上取之不竭的人类活动视频,让模型学习如何与世界交互,再用有限但宝贵的真实机器人数据进行微调和强化。这或许是破解数据困境,以巧破千斤的关键一招。

当我们在对话中问及“世界模型”的内涵时,王仲远用一个生动的例子再次强调了空间与时间的感知能力。“现在很多模型看到桌边的咖啡杯,只会描述 ‘一个白色的杯子’。但人类会立刻意识到 ‘它在边缘,很危险’,伸手去拿的时候会小心翼翼,因为我们能预测它跌落的后果。这种时空智能,正是 ‘悟界’ 所追求的。”

做具身智能的“安卓”,而非专用的“iOS”

在向物理世界进军的道路上,智源亮出了自己的核心战略。

王仲远打了一个非常精妙的比方:“你可以把它理解成具身智能领域的安卓(Android)系统,就好比 iOS 只能在 iPhone 上运行,但安卓系统能在不同品牌的手机上运行。

许多机器人硬件厂商,尤其是创业公司,并不具备独立研发大模型的雄厚资本和人才储备。前文提到的 GTC 大会圆桌上,这同样是英伟达目前最头疼的问题——如何提供一个普惠的、即插即用的“大脑”?

这不仅仅是一个商业策略,背后是更深层次的哲学思考。王仲远在对话中进一步向我们解释了“跨本体”的必要性。“对于一家商业公司而言,可能没有跨本体的诉求,它的优势在于用真实的场景和需求持续迭代自己的模型和本体。但是跨本体有没有用?显然是有的。人类的大脑和知识,本身就是跨本体的。”

他认为,人类可以通过语言、文字这些知识载体,将经验传递给不同的人,这就是一种“跨本体”。AI 也应该如此。这种理念,也解释了为什么是智源来做这件事。王仲远重申了智源的定位:“做高校做不了,企业不愿意做的事”。商业公司需要聚焦于软硬件结合的垂直整合,而智源作为科研机构,则可以承担构建通用平台、探索共通原理的使命。

这种开放的“安卓”模式,承载着智源的判断:具身智能的“大脑”,不应被任何单一的硬件“身体”所束缚。它应该能适配机械臂、轮式机器人、人形机器人等万千形态,将智能沉淀在一个通用的基座上。

“大小脑”之辩:融合尚早,协同先行

在具身智能的圈子里,“大小脑融合”是一个热门甚至有些过热的概念。许多人畅想一个统一的端到端大模型,能同时负责思考规划(大脑)和运动控制(小脑)。但当我们问及王仲远的看法时,他给出了一个非常务实和冷静的回答。

未来 5-10 年,大小脑融合的模型可能会成熟,但不是今天,”他对此有一个清醒的判断,“原因很简单,数据受限。当前具身智能的数据量,远不足以支持一个强大的、融合的大小脑模型训练。”

他认为,理想化的简洁架构是所有人追求的目标,但不能脱离现实。在当前阶段,强行融合反而会顾此失彼。因此,在采访中他清晰地界定了智源当下的策略:让“大脑”和“小脑”先协同工作。

“智源研发的具身大脑 RoboBrain,主要负责和人类交互、感知环境、规划和拆解任务。然后,它再把拆解后的具体执行指令,交给机器人本体上训练的‘小脑’去完成。”

这种端云协同的务实路线,一方面最大化了云端“大脑”的强大思考能力,另一方面也承认了本体端“小脑”在快速响应和精准控制上的重要性。这体现了一种工程智慧:在通往终极目标的路上,先用有效的协同方案解决当下问题,而不是空等一个尚不存在的“完美模型”。

那么,具身智能的这场竞赛,究竟进行到了哪一步?

王仲远将当前阶段类比为大模型爆发前的技术探索期。“悟道 1.0 发布时,学术界对 ‘大模型是通往 AGI 的技术路线’ 尚未得出统一结论。现在的具身智能,也处于这个阶段。

技术路线尚未收敛,产业格局也远未明朗。面对车企、大厂纷纷入局的激烈竞争,王仲远抛出了一个生动的比喻:“具身智能的 ‘小组赛’ 还没结束,远没有到 ‘淘汰赛’。现在谈谁会主导,为时过早。”

他认为,每一方都带来了不同的视角和理念,思想的碰撞恰恰是产业发展最需要的。

对于未来,王仲远在采访的最后给出了他的预测。他认为,未来 3 年,具身智能最可能率先在工厂这样的封闭场景实现规模化应用。“工厂环境有很多相对固定且枯燥的任务,不适合人类进行,而且能规避当前技术不成熟可能带来的安全隐患。”他补充道,“很多人觉得机械臂已经很成熟了,但我们调研发现,还有大量比如物流分拣、激光打标等工作依然靠人,这些重复、枯燥甚至有危险的劳动,最适合具身智能第一波切入。

从一个春节期间观察到的小女孩,到“安卓”与“iOS”的产业思考;从对“大小脑”融合的冷静判断,到“小组赛”的格局比喻,王仲远为我们描绘的,是一个充满挑战但也更加广阔的物理世界。

这条路无疑是漫长的。

但当 AI 不再满足于数字世界的符号游戏,而是开始真正地感知、理解并尝试改变我们身处的物理世界时,一个更广阔、也更激动人心的智能时代,才刚刚拉开序幕。

(文:AI科技大本营)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往