悟道 1.0 发布时,学术界对“大模型是通往 AGI 的技术路线”尚未得出统一结论。
现在的具身智能,也处于这个阶段。
大模型的热潮之下,一种微妙的瓶颈感,正成为行业共识。
“过往所说的 ‘百模大战’,更多是大语言模型的竞争,” 智源大会前夕,智源研究院院长王仲远在与 CSDN 的对话中,开门见山地指出了问题的核心,“而大语言模型受限于互联网数据的使用,性能虽然还在提升,但速度已大不如前。”
出路何在?在王仲远看来,AI 要突破天花板,就必须在“读万卷书”(互联网数据)后,去“行万里路”(物理世界)。
这并非孤立的判断。今年三月,英伟达 CEO 黄仁勋就在 GTC 大会上为 AI 的下半场指明了方向:打造“AI 工厂”,迎接“物理 AI”时代,让 AI 走出屏幕,与现实世界交互。
思考趋于一致,行动便接踵而至。6 月 6 日,CSDN 在北京智源大会现场,见证了王仲远在他的主题演讲中给出的答案。如果说 2021 年的“悟道”系列代表着对技术路径的探索(“道”),那么他所揭晓的全新“悟界”系列,则亮明了新的野心——用 AI 突破虚拟与现实的边界(“界”)。
通往这个新世界的桥梁,是多模态。
“我们去年就预判,大模型会从语言模型走向多模态,尤其是「原生多模态世界模型」,它最终的目的,就是为了让 AI 感知和理解物理世界,进而与这个世界交互,最终推动具身智能的发展。” 王仲远在对话中,向我们揭示了这条技术路线的本质。
“悟界”并非单一模型,而是一套旨在全面解构、交互物理世界的组合拳:
-
原生多模态世界模型 Emu3,这是一个试图用统一架构理解文本、图像、视频的“通用感官”;
-
跨本体具身大小脑协作框架 RoboOS 2.0 与具身大脑 RoboBrain 2.0,是智源打造“机器人安卓生态”的野心所在;
-
脑科学模型见微 Brainμ,则堪称最具科幻色彩的一笔,它将 AI 的触角伸向了我们的大脑,试图解码脑电波这一全新的模态;
-
全原子生命模型 OpenComplex2,则像一台深入微观世界的显微镜,在原子层面模拟生命的动态,探索其本质。
从原子到大脑,再到机器人,“悟界”系列是智源对物理世界下的一场全栈式豪赌。但这场豪赌背后,并非只有产品的发布,更有深度的哲学思考。在与王仲远的对话中,我们得以一窥其蓝图的全貌。



这不仅仅是一个商业策略,背后是更深层次的哲学思考。王仲远在对话中进一步向我们解释了“跨本体”的必要性。“对于一家商业公司而言,可能没有跨本体的诉求,它的优势在于用真实的场景和需求持续迭代自己的模型和本体。但是跨本体有没有用?显然是有的。人类的大脑和知识,本身就是跨本体的。”
他认为,人类可以通过语言、文字这些知识载体,将经验传递给不同的人,这就是一种“跨本体”。AI 也应该如此。这种理念,也解释了为什么是智源来做这件事。王仲远重申了智源的定位:“做高校做不了,企业不愿意做的事”。商业公司需要聚焦于软硬件结合的垂直整合,而智源作为科研机构,则可以承担构建通用平台、探索共通原理的使命。
这种开放的“安卓”模式,承载着智源的判断:具身智能的“大脑”,不应被任何单一的硬件“身体”所束缚。它应该能适配机械臂、轮式机器人、人形机器人等万千形态,将智能沉淀在一个通用的基座上。

在具身智能的圈子里,“大小脑融合”是一个热门甚至有些过热的概念。许多人畅想一个统一的端到端大模型,能同时负责思考规划(大脑)和运动控制(小脑)。但当我们问及王仲远的看法时,他给出了一个非常务实和冷静的回答。
“未来 5-10 年,大小脑融合的模型可能会成熟,但不是今天,”他对此有一个清醒的判断,“原因很简单,数据受限。当前具身智能的数据量,远不足以支持一个强大的、融合的大小脑模型训练。”
他认为,理想化的简洁架构是所有人追求的目标,但不能脱离现实。在当前阶段,强行融合反而会顾此失彼。因此,在采访中他清晰地界定了智源当下的策略:让“大脑”和“小脑”先协同工作。
“智源研发的具身大脑 RoboBrain,主要负责和人类交互、感知环境、规划和拆解任务。然后,它再把拆解后的具体执行指令,交给机器人本体上训练的‘小脑’去完成。”
这种端云协同的务实路线,一方面最大化了云端“大脑”的强大思考能力,另一方面也承认了本体端“小脑”在快速响应和精准控制上的重要性。这体现了一种工程智慧:在通往终极目标的路上,先用有效的协同方案解决当下问题,而不是空等一个尚不存在的“完美模型”。
那么,具身智能的这场竞赛,究竟进行到了哪一步?
王仲远将当前阶段类比为大模型爆发前的技术探索期。“悟道 1.0 发布时,学术界对 ‘大模型是通往 AGI 的技术路线’ 尚未得出统一结论。现在的具身智能,也处于这个阶段。”
技术路线尚未收敛,产业格局也远未明朗。面对车企、大厂纷纷入局的激烈竞争,王仲远抛出了一个生动的比喻:“具身智能的 ‘小组赛’ 还没结束,远没有到 ‘淘汰赛’。现在谈谁会主导,为时过早。”
他认为,每一方都带来了不同的视角和理念,思想的碰撞恰恰是产业发展最需要的。
对于未来,王仲远在采访的最后给出了他的预测。他认为,未来 3 年,具身智能最可能率先在工厂这样的封闭场景实现规模化应用。“工厂环境有很多相对固定且枯燥的任务,不适合人类进行,而且能规避当前技术不成熟可能带来的安全隐患。”他补充道,“很多人觉得机械臂已经很成熟了,但我们调研发现,还有大量比如物流分拣、激光打标等工作依然靠人,这些重复、枯燥甚至有危险的劳动,最适合具身智能第一波切入。”
从一个春节期间观察到的小女孩,到“安卓”与“iOS”的产业思考;从对“大小脑”融合的冷静判断,到“小组赛”的格局比喻,王仲远为我们描绘的,是一个充满挑战但也更加广阔的物理世界。
这条路无疑是漫长的。
但当 AI 不再满足于数字世界的符号游戏,而是开始真正地感知、理解并尝试改变我们身处的物理世界时,一个更广阔、也更激动人心的智能时代,才刚刚拉开序幕。
(文:AI科技大本营)