小记:想要理解篮球弹跳背后的力学定律,远比生成一万句赞美篮球的诗句更具挑战性。
最近一个月,个人觉得AI有点中场休息的意思。主要原因是AI创造的经济价值还不够明显,硬件的一体机顶多就是个半成品。但也不乏亮点,日前图灵奖得主杨立昆在转发字节跳动豆包团队的研究成果时,毫不留情地指出:“尽管大语言模型能够创作十四行诗,但它们却无法解释篮球抛出后为何会落地。”在他看来,视频生成模型未能真正理解物理世界,这一结论虽在意料之中,但令人欣慰的是,终于有人勇敢地迈出了尝试的第一步!
经过长期的深入研究,一个令人震惊的事实浮出水面。当要求视频生成模型在超出训练数据的速度区间内生成小球运动视频时,模型完全忽视了物理规律的存在,无论怎么调整参数和增加数据量,问题依旧无法解决。
大语言模型先天困局
当前这场看似热闹非凡的AI狂欢背后,大语言模型的根基正逐渐暴露出结构性缺陷。这些缺陷并非简单的工程优化所能解决,而是源于其底层范式的本质局限性。
物理理解的缺失是LLM面临的首要短板,通过海量文本数据进行训练的LLM,从未真正“触摸”过现实世界。字节跳动的实验清晰地揭示了这一点:视频模型能够在训练数据所涵盖的速度区间内模仿小球的运动轨迹,但一旦超出这一范围,生成的轨迹便会立即违背基本的物理定律。
模型只是在匹配数据模式,而非真正理解重力或动量守恒等物理概念。
与此同时,记忆能力的脆弱性同样是一个致命的缺陷。当OpenAI的GPT-4在长对话中迷失上下文,或是Gemini Pro面对一小时视频无法回答“穿恐龙服的人骑的是什么车”时,这无疑暴露了LLM记忆机制的本质缺陷。它们缺乏持久的记忆存储,仅依赖上下文窗口来维持短暂的回忆。
此外,逻辑推理的短板在反事实推断方面表现得尤为明显。LLM能够基于文本描述归纳因果关系,但却难以进行有效的演绎推理。当被问及“如果水在火星表面会怎样”时,模型往往会陷入毫无根据的臆想,而非基于物理定律进行合理推演。这种能力的缺失,正是源于文本训练的先天局限性:语言所描述的仅仅是世界的“影子”,而非世界本身的真实面貌。
最后,复杂规划的缺失更是凸显了LLM的深层危机。真正的规划需要提前预演行动的后果,而LLM只能生成“看似合理”的下一步动作序列。在自动驾驶等高风险场景中,欠缺所带来的隐患是致命的。因为系统无法预判五秒后的连锁反应,从而会导致严重的安全事故。
物理规律进神经网络
世界模型的崛起并非偶然,它标志着AI从文本符号操作者向物理规律学习者的根本转变。转变的核心方法,是让AI直接“观察”世界运转的视频记录,从而学习并理解其中蕴含的物理规律。
UC伯克利的LWM模型展示了突破性的进展,借助RingAttention技术,它能够处理长达100万token的序列,相当于分析一小时YouTube视频,并精准回答其中的细节问题。当Gemini Pro和GPT-4V对长视频提问感到束手无策时,LWM却能够准确指出“穿霸王龙服装的人骑的是摩托车”。
清华大学的WorldDreamer则开辟了另一条独特的路径,它将视频生成重构为序列预测任务,采用Transformer架构来预测被掩码的视觉token。
该方法不仅使模型能够生成视频,还能深刻理解通用世界动态变化的规律。从自动驾驶场景中的转向预判到自然场景中的物理运动,都能游刃有余。
Meta公司的V-JEPA 2,通过拥有12亿参数的模型通过100万小时视频训练,建立了对物理现实的深刻直觉。它知道从桌上滚落的球会掉下,明白被遮挡的物体不会消失。
它的理解并非基于文本描述,而是通过“潜在空间”推理获得的对物体运动、相互作用的本质把握。
世界模型的学习机制与人类婴儿极为相似,通过视觉观察建构世界的内在表征。当人类婴儿看到球反复从斜坡上滚落时,他们会逐渐内化重力这一概念。同样,V-JEPA 2通过视频帧序列的学习,也能够掌握“物体需要支撑才不会坠落”这一物理规律。
先进的学习方式催生了因果推理质变,世界模型不仅能回答“发生了什么”,更能推断“如果……会怎样”。特斯拉的通用世界模型能够生成“可能的未来”驾驶场景,该能力正是真实决策的基础所在。
世界模型重构AI竞争格局
物理理解的突破正在重塑全球科技巨头的战略布局,黄仁勋在CES 2025的舞台上发布的Cosmos世界基础模型,所瞄准的并非仅仅是视频生成,而是物理世界的数字孪生。
英伟达的布局极具代表性,Cosmos专为模拟工业环境和驾驶场景而构建,能够生成逼真的物理交互效果。它的背后是对2000万小时真实世界数据消化吸收,其物理信息密度远远超过了任何文本库。
自动驾驶领域成为世界模型的首个试炼场,传统系统依赖海量真实驾驶数据。但危险场景数据的获取成本极高,世界模型的出现改变了这一游戏规则。
• 蔚来的NWM模型能够在短时间内推演上百种可能场景,并迅速找出最优决策方案;
• 理想汽车结合3D高斯重建与扩散生成技术,为智驾系统创建了“错题集”和“模拟题”,极大地提升了系统的应对能力;
• 特斯拉的通用世界模型则通过过往片段生成“可能的未来”驾驶场景,为驾驶安全提供了有力保障。
机器人领域也正经历一场静默变革,波士顿动力利用世界模型在虚拟环境中预演机器人的动作。Meta的V-JEPA 2让机器人能够理解“推桌子上的书也会使边缘的杯子坠落”这一连锁反应。该能力源于模型内在的物理规律编码,而非传统的外部编程规则。
游戏产业则成为世界模型的商业化前锋,谷歌DeepMind的Genie 2通过单张图片生成可交互的无限3D世界,腾讯的模型能够一键生成复杂的游戏场景和角色。
新技术将游戏开发从繁琐的手工编码中解放出来,创作者只需描述自己的想象,世界模型便能够构建出符合物理规律的游戏环境。
技术路线的分野日益清晰,英伟达的Cosmos、Meta的V-JEPA、UC伯克利的LWM各自代表了不同的发展路径,但它们都指向了同一个目标,就是让AI获得对现实世界的直观物理认知。
⋯ ⋯
变革不仅仅是一次技术升级,我认为更是认知范式的根本转换。
(一)当LLM仍在文本的牢笼中统计词频时,世界模型已经开始构建对重力、摩擦力和材料强度的直观理解。
(二)物理规律学习带来了决策机制的质变,传统AI规划依赖搜索算法评估选项,而世界模型则通过内部模拟预演结果。
(三)就像棒球击球手能在毫秒内预判球路一样,V-JEPA 2能够预测隐藏物体的重现位置。该能力源自对时空连续性的理解,而非简单的文本训练。
世界模型的价值不仅体现在技术指标的提升上,更在于它能够解决LLM无法触及的现实问题。
⋯ ⋯
DeepMind的GraphCast利用世界模型处理百万级网格气象变量,预测速度比传统数值模拟快上千倍。工业机器人通过内部模拟避免真实碰撞损坏,自动驾驶系统在虚拟极端场景中积累经验,也是纯文本模型永远无法企及的领域。
杨立昆的洞察揭示了这一变革的本质:“让机器理解物理世界与让它们理解语言截然不同。世界模型提供了一个虚拟的、简化版的现实世界,人工智能可以参考它来理解世界,预测行为后果。”
字节跳动公司研究者,看着他们训练的视频模型在未知速度区间生成混乱的小球轨迹时。他们实际上目睹了AI发展史上的关键分水岭,概率模式匹配与真实世界理解之间的巨大鸿沟。
未来的智能系统将不再仅仅依靠统计词频与人类进行对话,而是像人类孩童一样,通过观察世界如何运作来建构对现实的理解。它们将知晓雨滴为何下落,理解推门需要施加的力道,预见松手的杯子将破碎在地。
物理定律是宇宙中最持久的语言,而世界模型正成为AI破译这门语言的终极密码本。当机器真正内化这些规则时,它们将不再仅仅是回答问题的工具,而将成为能够在真实世界中主动解决问题的伙伴。
(文:陳寳)