对话智源王仲远：具身智能“小组赛”才刚刚开打，机器人需要“安卓”而非 iOS

悟道 1.0 发布时，学术界对“大模型是通往 AGI 的技术路线”尚未得出统一结论。

现在的具身智能，也处于这个阶段。

作者 | 王启隆

出品丨AI 科技大本营（ID：rgznai100）

大模型的热潮之下，一种微妙的瓶颈感，正成为行业共识。

“过往所说的 ‘百模大战’，更多是大语言模型的竞争，” 智源大会前夕，智源研究院院长王仲远在与 CSDN 的对话中，开门见山地指出了问题的核心，“而大语言模型受限于互联网数据的使用，性能虽然还在提升，但速度已大不如前。”

出路何在？在王仲远看来，AI 要突破天花板，就必须在“读万卷书”（互联网数据）后，去“行万里路”（物理世界）。

这并非孤立的判断。今年三月，英伟达 CEO 黄仁勋就在 GTC 大会上为 AI 的下半场指明了方向：打造“AI 工厂”，迎接“物理 AI”时代，让 AI 走出屏幕，与现实世界交互。

思考趋于一致，行动便接踵而至。6 月 6 日，CSDN 在北京智源大会现场，见证了王仲远在他的主题演讲中给出的答案。如果说 2021 年的“悟道”系列代表着对技术路径的探索（“道”），那么他所揭晓的全新“悟界”系列，则亮明了新的野心——用 AI 突破虚拟与现实的边界（“界”）。

通往这个新世界的桥梁，是多模态。

“我们去年就预判，大模型会从语言模型走向多模态，尤其是「原生多模态世界模型」，它最终的目的，就是为了让 AI 感知和理解物理世界，进而与这个世界交互，最终推动具身智能的发展。” 王仲远在对话中，向我们揭示了这条技术路线的本质。

“悟界”并非单一模型，而是一套旨在全面解构、交互物理世界的组合拳：

原生多模态世界模型 Emu3，这是一个试图用统一架构理解文本、图像、视频的“通用感官”；
跨本体具身大小脑协作框架 RoboOS 2.0 与具身大脑 RoboBrain 2.0，是智源打造“机器人安卓生态”的野心所在；
脑科学模型见微 Brainμ，则堪称最具科幻色彩的一笔，它将 AI 的触角伸向了我们的大脑，试图解码脑电波这一全新的模态；
全原子生命模型 OpenComplex2，则像一台深入微观世界的显微镜，在原子层面模拟生命的动态，探索其本质。

从原子到大脑，再到机器人，“悟界”系列是智源对物理世界下的一场全栈式豪赌。但这场豪赌背后，并非只有产品的发布，更有深度的哲学思考。在与王仲远的对话中，我们得以一窥其蓝图的全貌。

具身智能的“循环悖论”，和一个小女孩的启示

迈向物理世界，具身智能是绕不开的核心。然而，王仲远坦言，这个领域正深陷一个棘手的“循环悖论”：硬件不成熟，导致高质量的真实数据稀缺；数据稀缺，使得模型能力羸弱；模型能力弱，又导致商业化落地困难，从而无法反哺硬件的迭代和量产。

这几乎是一个死循环。如何打破它？

我再次想到了英伟达。今年除了黄仁勋的演讲，GTC 还开设了一场机器人圆桌论坛，盛请四家欧美机器人龙头企业老板对此展开激辩，有的认为需要十年，有的认为专用机器人会先行一步，还有人直指未来的星辰大海，聊起了星际旅行。

但王仲远分享了一个更极具启发性的观察，他认为解法或许藏在我们的日常生活中。

“今年春节，我观察到一个小女孩，没有任何大人教她，她只是刷了很多短视频，就学会了自己拆糖果、撕开包装纸，甚至能把五颗蓝莓精准地串在一根牙签上。”

这个场景极具启发性：小女孩通过观看海量的视频（互联网数据），在大脑中形成了对任务的理解和规划，然后再通过自己的小手去实践（强化学习），失败几次，最终成功。这与大模型的发展路径不谋而合——通过海量数据预训练获得基础能力，再通过强化学习激发更高阶的智能。

智源选择的正是这样一条路径：让机器人看“短视频”学习技能。利用互联网上取之不竭的人类活动视频，让模型学习如何与世界交互，再用有限但宝贵的真实机器人数据进行微调和强化。这或许是破解数据困境，以巧破千斤的关键一招。

当我们在对话中问及“世界模型”的内涵时，王仲远用一个生动的例子再次强调了空间与时间的感知能力。“现在很多模型看到桌边的咖啡杯，只会描述 ‘一个白色的杯子’。但人类会立刻意识到 ‘它在边缘，很危险’，伸手去拿的时候会小心翼翼，因为我们能预测它跌落的后果。这种时空智能，正是 ‘悟界’ 所追求的。”

做具身智能的“安卓”，而非专用的“iOS”

在向物理世界进军的道路上，智源亮出了自己的核心战略。

王仲远打了一个非常精妙的比方：“你可以把它理解成具身智能领域的安卓（Android）系统，就好比 iOS 只能在 iPhone 上运行，但安卓系统能在不同品牌的手机上运行。”

许多机器人硬件厂商，尤其是创业公司，并不具备独立研发大模型的雄厚资本和人才储备。前文提到的 GTC 大会圆桌上，这同样是英伟达目前最头疼的问题——如何提供一个普惠的、即插即用的“大脑”？

这不仅仅是一个商业策略，背后是更深层次的哲学思考。王仲远在对话中进一步向我们解释了“跨本体”的必要性。“对于一家商业公司而言，可能没有跨本体的诉求，它的优势在于用真实的场景和需求持续迭代自己的模型和本体。但是跨本体有没有用？显然是有的。人类的大脑和知识，本身就是跨本体的。”

他认为，人类可以通过语言、文字这些知识载体，将经验传递给不同的人，这就是一种“跨本体”。AI 也应该如此。这种理念，也解释了为什么是智源来做这件事。王仲远重申了智源的定位：“做高校做不了，企业不愿意做的事”。商业公司需要聚焦于软硬件结合的垂直整合，而智源作为科研机构，则可以承担构建通用平台、探索共通原理的使命。

这种开放的“安卓”模式，承载着智源的判断：具身智能的“大脑”，不应被任何单一的硬件“身体”所束缚。它应该能适配机械臂、轮式机器人、人形机器人等万千形态，将智能沉淀在一个通用的基座上。

“大小脑”之辩：融合尚早，协同先行

在具身智能的圈子里，“大小脑融合”是一个热门甚至有些过热的概念。许多人畅想一个统一的端到端大模型，能同时负责思考规划（大脑）和运动控制（小脑）。但当我们问及王仲远的看法时，他给出了一个非常务实和冷静的回答。

“未来 5-10 年，大小脑融合的模型可能会成熟，但不是今天，”他对此有一个清醒的判断，“原因很简单，数据受限。当前具身智能的数据量，远不足以支持一个强大的、融合的大小脑模型训练。”

他认为，理想化的简洁架构是所有人追求的目标，但不能脱离现实。在当前阶段，强行融合反而会顾此失彼。因此，在采访中他清晰地界定了智源当下的策略：让“大脑”和“小脑”先协同工作。

“智源研发的具身大脑 RoboBrain，主要负责和人类交互、感知环境、规划和拆解任务。然后，它再把拆解后的具体执行指令，交给机器人本体上训练的‘小脑’去完成。”

这种端云协同的务实路线，一方面最大化了云端“大脑”的强大思考能力，另一方面也承认了本体端“小脑”在快速响应和精准控制上的重要性。这体现了一种工程智慧：在通往终极目标的路上，先用有效的协同方案解决当下问题，而不是空等一个尚不存在的“完美模型”。

那么，具身智能的这场竞赛，究竟进行到了哪一步？

王仲远将当前阶段类比为大模型爆发前的技术探索期。“悟道 1.0 发布时，学术界对 ‘大模型是通往 AGI 的技术路线’ 尚未得出统一结论。现在的具身智能，也处于这个阶段。”

技术路线尚未收敛，产业格局也远未明朗。面对车企、大厂纷纷入局的激烈竞争，王仲远抛出了一个生动的比喻：“具身智能的 ‘小组赛’ 还没结束，远没有到 ‘淘汰赛’。现在谈谁会主导，为时过早。”

他认为，每一方都带来了不同的视角和理念，思想的碰撞恰恰是产业发展最需要的。

对于未来，王仲远在采访的最后给出了他的预测。他认为，未来 3 年，具身智能最可能率先在工厂这样的封闭场景实现规模化应用。“工厂环境有很多相对固定且枯燥的任务，不适合人类进行，而且能规避当前技术不成熟可能带来的安全隐患。”他补充道，“很多人觉得机械臂已经很成熟了，但我们调研发现，还有大量比如物流分拣、激光打标等工作依然靠人，这些重复、枯燥甚至有危险的劳动，最适合具身智能第一波切入。”

从一个春节期间观察到的小女孩，到“安卓”与“iOS”的产业思考；从对“大小脑”融合的冷静判断，到“小组赛”的格局比喻，王仲远为我们描绘的，是一个充满挑战但也更加广阔的物理世界。

这条路无疑是漫长的。

但当 AI 不再满足于数字世界的符号游戏，而是开始真正地感知、理解并尝试改变我们身处的物理世界时，一个更广阔、也更激动人心的智能时代，才刚刚拉开序幕。

（文：AI科技大本营）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复