
昨日,Meta 推出了其新的“世界模型”V-JEPA 2,旨在实现物理世界中顶尖的视觉理解与预测能力,以提升 AI 主体的物理推理能力。对于构建能在物理世界中运作的 AI 智能体和实现高级机器智能(AMI)的工作而言,物理推理能力至关重要。
在一段发布的 V-JEPA 2 视频演示中,图灵奖获得者、Meta 首席 AI 科学家 Yann LeCun 将 V-JEPA 2 描述为“现实的抽象数字孪生”,使 AI 能够 “预测其行为的后果” 并 “规划行动方案以完成给定任务”。
“我们相信,世界模型将开启机器人技术的新纪元,使现实世界中的 AI 主体能够帮助完成家务和体力任务,而无需海量的机器人训练数据。”
比英伟达的 Cosmos 模型快 30 倍,
现已开源
作为人类,我们具备预测物理世界如何因响应自身或他人行为而变化的能力。例如,你知道将网球抛向空中时,重力会将其拉回地面;在陌生的拥挤区域行走时,你会朝着目的地移动,同时避免碰撞沿途的人群或障碍物;打曲棍球时,你会滑向冰球的前进方向,而非它当前的位置。
实际上,人类是通过观察周围世界并构建内部模型来形成这种物理直觉,进而预测假设行为的结果。
V-JEPA 2 的作用就是,帮助 AI 主体模拟这种智能,使其对物理世界的认知更加敏锐。具体来说,此类世界模型赋予 AI 三大核心能力:理解、预测与规划,试图构建现实的内部模拟,帮助机器预测结果并据此规划行动。
并且,Meta 称,V-JEPA 2 可以在不需要标记视频片段的情况下执行此类推理,这使其有别于 ChatGPT 或 Gemini 等现有生成式 AI 系统,旨在为自动驾驶汽车、仓库机器人和无人机配送系统等 AI 驱动型技术实现实时空间理解。
另外据了解,这次的 V-JEPA 2 是 Meta 去年发布的视频训练模型 V-JEPA 的扩展版本,进一步提升了理解与预测能力,使机器人能与陌生物体和环境交互以完成任务。
该模型是在 100 多万小时的视频基础上训练出来的,其训练数据旨在帮助机器人或其他人工智能主体在物理世界中运作,理解并预测诸如重力等概念将如何影响序列中的后续事件,这些是幼儿和动物在大脑发育过程中形成的常识性联系。例如,当你和狗玩接物游戏时,狗会理解将球在地上弹跳如何使其向上反弹,或者它应该跑向它认为球将落地的位置,而不是球在那一刻的精确位置。
Meta 还描述了一些机器人可能会遇到的情况,比如机器人手持盘子和锅铲、走向放有熟鸡蛋的炉子的视角。AI 可以预测,下一个极有可能的动作是用锅铲将鸡蛋移到盘子里。 当在实验室机器人上部署时,Meta 发现机器人可借助 V-JEPA 2 执行抓取、拾取物体并将其放置到新位置等任务。
同时,该公司还发布了三项新的基准测试,包括 IntPhys 2、MVPBench 和 CausalVQA,用于评估现有模型从视频中进行物理世界推理的能力。
据 Meta 称,V-JEPA 2 的速度比英伟达的 Cosmos 模型快 30 倍。今年的 CES 上,英伟达宣布公开提供一系列可以预测和生成“物理感知”视频的世界模型,此系列为 Cosmos World Foundation 模型,简称 Cosmos。不过,Meta 评估自己模型的基准可能与英伟达不同。
值得注意的是,现在 Meta 已将 V-JEPA 2 开源,允许开发人员访问、测试并将其集成到各种用例中。
LeCun 力挺 V-JEPA 2,
“想法已研究 20 年”
对于这次的 V-JEPA 2,Yann LeCun 显然也十分重视,不仅在演示视频中亲自出镜讲解这一成果,并在 Meta 官方介绍 V-JEPA 2 后火速在社交平台转发帖子。
LeCun 在塑造现代 AI 方面发挥了重要作用,他的早期工作主要集中在神经网络和计算机视觉上,为后来的深度学习奠定了基础。加入 Meta 后,LeCun 就一直负责 Meta 的 AI 研究工作,领导的基础 AI 研究实验室(Fundamental AI Research)。直到 2023 年,Meta 才又新成立了一个生成式 AI 小组。
然而,一直以来,LeCun 都认为,AI 需要世界模型,而不仅仅是大语言模型。“我们需要 AI 来构建世界如何运作的模型,而不仅仅是模仿人类文本。”他还曾透露:“通过训练系统预测视频中将要发生的事情来理解世界如何运作的想法是非常古老的。我至少以某种形式研究了 20 年。”
在 LeCun 最近的公开发言中,他也多次批评 LLM 不足以实现人类水平的智能,而主张建立通过观察环境和与环境互动来学习的世界模型。今年的英伟达 GTC 大会上,LeCun 直接将 LLM 贬为“token 生成器”,还放话称“五年内没有理智的人会继续使用它们”。
因而,今年 4 月,当 Meta 因 Llama 4 发布后表现不佳招致种种“落后”质疑时,就有业内人士直接将根源归咎于其“对 LLM 前进方向的厌恶 / 拒绝”心态。还有网友表示,“有像 Yann Lecun 这样的顶级科学家、数千亿资本支出用于计算资源以及内部研究,Meta 竟然还能搞砸成这样。”
这次发布 V-JEPA 2 后,不少网友都表示,LeCun 终于带着他的世界模型“熬出头”了。
Meta 公开表示, V-JEPA 2 标志着其长期 AI 路线图的一个关键里程碑,尤其是在与 OpenAI、微软和谷歌的竞争日益激烈的情况下。随着世界模型在 AI 进步中变得越来越重要,V-JEPA 2 将使 Meta 在开发 “通用人工智能” 的竞赛中发挥主导作用 —— 这类 AI 有望在现实世界中更接近人类的思考和行动模式。
急于追赶 AI 进度的小扎,
已亲自上阵
推出 V-JEPA 2 的这个当下,正值 Meta 加倍押注其 AI 雄心之际。据悉,该公司不仅希望通过 AI 改善 Facebook 和 Instagram 的用户体验,还致力于开发机器人技术和自主系统方面的长期能力。
而如今,来自中国的 DeepSeek 和 Qwen,在开源社区中的影响力愈加扩大,Llama 激起的“水花”反而越来越小,Llama 4 也不尽如人意。面对这样的情况,Meta 的首席执行官马克・扎克伯格(Mark Zuckerberg)似乎也开始着急了。
前不久,有外媒报道,这家科技巨头向 Scale AI 投资 140 亿美元,这是一家总部位于旧金山的初创公司,为机器学习提供训练数据。该公司由 Alexandr Wang 创立,有望在 Meta 下一阶段的 AI 发展中发挥关键作用。知情人士透露,Wang 还被聘请领导 Meta 的关键人工智能计划。这笔投资也与扎克伯格的既定目标一致,即“将 AI 嵌入 Meta 的核心产品中” 。
另据一位知情人士透露,Meta 的领导层抱怨该公司领先的 AI 团队缺乏围绕数据的创新,期望 Scale AI 能够重新点燃其 AI 工作。在过去的几年里,OpenAI 等领先的 AI 实验室一直依靠 Scale AI 来生成和标记用于训练模型的数据。Anyscale 联合创始人 Robert Nishihara 曾指出,“数据是一个移动的目标,要迎头赶上,这不仅仅是有限的努力——你必须创新。”
并且,时隔两年,Meta 再次着手引入新的 AI 团队。
据外媒报道,该公司正在组建一个专注于实现“超级智能”目标的团队,并由扎克伯格亲自领导进行。他计划为超级智能组招募约 50 名顶尖 AI 专家,并将向这些人员提供为期数年、价值数千万美元的薪酬方案,包括股权激励。
当前,他不仅私人会见了多位顶尖 AI 研究人员和工程师,还组建了名为“Recruiting Party”的 WhatsApp 群组。谷歌 DeepMind 首席研究员 Jack Rae 预计将加入 Meta 的超级智能团队,他也是该团队曝出的首个成员。Rae 此前在谷歌 DeepMind 工作了两年,负责 Gemini 的“思考”相关进展。另有消息称,AI 语音初创公司 Sesame AI 的机器学习负责人 Johan Schalkwyk 也已被 Meta 招募。
与此同时,Meta 的一些竞争对手似乎正在为留住 AI 研究人员提供新的激励措施。一位知情人士透露,Meta 曾试图挖走谷歌顶级人工智能研究员之一 Koray Kavukcuoglu 以及 OpenAI 首席研究员 Noam Brown,但均未成功。
不同于解读和生成文本的大型语言模型,世界模型更注重空间理解、因果推理和预测能力。这些模型可能成为任何在动态现实环境中运行的 AI 的核心要素。根据 Meta 的说法, V-JEPA 2 依赖于简化的空间推理而不是大量的数据输入,这可能使其比现有的 AI 模型更高效、适应性和可扩展性都更强。
因此,其影响很可能不仅限于物流和机器人技术。
如果像 V-JEPA 2 这样的世界模型继续按预期发展,它们可能会为 AI 在陌生环境中自主运行铺平道路,进而开拓医疗、农业甚至救灾等领域的应用场景。
并且,Meta 的这一举措,似乎也顺应了 AI 研究正向世界建模发展的增长趋势。
去年 9 月,AI 研究员李飞飞为初创公司 World Labs 筹集了 2.3 亿美元,该公司同样专注于构建大规模世界模型。与此同时,谷歌 DeepMind 部门正在测试名为 Genie 的世界模型项目,旨在实时模拟游戏和虚拟环境。
(文:AI前线)