杨立昆:靠文本训练LLM，不可能实现人类水平AI（演讲实录）

作者｜沐风

来源｜AI先锋官

近日，Meta首席AI科学家杨立昆在美国2025年联合数学会议上发表演讲，他提到：“仅靠文本训练，我们无法实现达到人类水平的AI。”

他表示，且不说达到人类的水平，即便要模拟数学家或科学家的能力也相去甚远，我们目前甚至无法复现猫所具备的能力。

它的建议是，要想学习世界模型，就得放弃（像素级预测性的）生成式AI。

物理世界蕴含的信息，特别是来自视觉、触觉和听觉的感官输入，其信息量远超人类有史以来产生的所有文本。

要实现达到人类水平的AI (Meta 称之为 AMI，即高级机器智能)，他认为需要这样的系统：能够通过观察和感官输入学习世界模型，还需要具备持久性记忆的系统，能够规划复杂行动序列的系统，能够进行推理的系统，以及那些天生可控、设计安全的系统，而不仅仅是像当前AI系统那样通过微调实现安全可控。

在他看来，要构建这样的系统，唯一的途径就是彻底改变其执行推理的方式。

最后，他还建议：“放弃生成式模型，拥抱联合嵌入架构（比如JEPA）。放弃纯粹的概率模型，拥抱基于能量的模型。放弃对比方法，拥抱正则化方法。放弃“无模型的强化学习”，拥抱“基于模型的方法”，比如模型预测控制和规划。”

“如果你真的想实现达到人类水平的AI，别只盯着LLM。”

以下为本次演讲实录：

刚听Bryna 列举了过往 Gibbs 讲座的各位杰出演讲者，我确实深感压力。我不敢相信自己能够与那些大师比肩。不过，还是让我来谈谈AI。

显然，每个人都在谈论AI，尤其是人类级别AI的难题。因此，很多人工智能研究和开发社区的人都认为，也许我们有机会在未来十年左右建造人类智能水平的机器架构。至于需要多长时间，各种预测的差异巨大。最乐观的人说，我们已经实现了。一些正在筹集大量资金的人声称明年就能实现，但我自己并不这么认为。但我认为我们确实有一个很好的机会。所以我想和大家探讨一下，我认为的 AI 研究方向、有哪些障碍，以及其中一些确实存在的数学难题。

好的，那么我们为什么需要建立具有人类智能水平的人工智能系统呢？

这是因为，你知道，在不久的将来，我们都将与AI助理一起工作，让它们来协助我们的日常生活。我们将能够通过各种智能设备进行交互，包括智能眼镜等。通过语音和其他各种与它们互动的方式。所以我们将拥有带有摄像头和显示屏的智能设备等。目前，目前市面上已有不带显示屏的智能眼镜，但带显示屏的版本也即将问世。实际上，这种技术现已存在，但它们成本太高了，无法商业化。这是我们在Meta的同事建造的Orion演示。

所以未来即将到来，设想，我们所有人的生活基本上都将与AI助理密切相关。我们所有人都会像高级首席执行官或重要官员一样，身边都有一支由聪明的虚拟助手组成的团队待命，为我们服务，这是一种可能的情况。

但问题是我们还不知道如何实现这些。而且，目前的机器学习状态是它很糟糕。我的意思是，就学习能力而言，与人类和动物相比，机器在达到特定性能水平之前需要经历的样本数量或试错次数极为庞大，学习效率非常低效。

因此，在过去，机器学习的主导范式是监督学习。监督学习是你向系统提供输入，等待它产生输出，然后告诉它正确的、预期的输出是什么。如果您想要的输出与系统生成的输出不同，系统会调整内部参数以使输出更接近正确答案。这本质上只是在学习一个输入输出的映射关系。

强化学习则不用将正确的答案告诉系统，它只是告诉系统其产生的答案是好还是坏，其主要问题是系统需要反复尝试并接收关于“好坏”或“是否有改进”的反馈，这样效率更低，所以它基本上只适用于游戏或者可以在电脑上快速模拟的场景。

因此，在过去几年中彻底改变了AI的一件事叫做自我监督学习，它的效果非常好。它真的彻底改变了AI，但它仍然非常有限。因此，自我监督运行是大型语言模型、聊天机器人以及类似技术的基础。我马上就会告诉你它是如何工作的。

但实际上，动物和人类学习新任务的速度地非常快，并且他们可以理解世界是如何运作的。他们能够推理和计划，他们有共同的感知，而且行为真正受目标驱动，不仅仅是预测文本中的下一个单词。

那么这些聊天机器人和LLMs是如何工作的？自回归大型语言模型它们被训练来预测序列中的下一个单词或序列符号中的下一个符号。它们可以是文字，也可以是DNA、音乐、蛋白质等，随便哪个，其具体做法是，取一段符号序列，将其输入一个大型神经网络。这种网络的架构设计旨在让系统在其输出端重现其输入——这被称为自动编码器。用户输入一个序列，并要求系统在输出端复制这个序列。

但是系统的结构是这样的，为了产生一个特定的变量，系统只能按顺序查看左边的变量。它无法查看需要预测的变量。

基本上，你训练它做什么，通过这样做，你训练它预测序列中的下一个符号。我们在日志序列上并行执行此操作。通过测量输入序列与系统生成序列之间的某种散度进行量化差异，，然后通过梯度最小化散度度量，基本上是基于梯度的优化，相对于预测函数内的所有参数，这是一个巨大的基本网络，可能有数百亿甚至数百亿个参数，这是一个非常高的维度，

一旦你训练了这个系统，当你取一个序列并运行它时，系统将预测下一个符号。那么让我们假设它在这里查看符号的窗口是3。现实中，一个LLM可以有几十万，但假设有3个。向系统输入 3 个词，它会产生下一个单词。当然，它无法准确预测下一个单词，因此它产生的是覆盖其词汇表中所有可能单词的概率分布。

通常在LLM中，我们实际上不会尝试生成单词，而是尝试生成Tokens，它们就像子词单元一样。可能的 Token 种类数量通常在 10 万左右。

好的，现在当你使用这个系统时，你给它输入一个被称为提示词的单词序列。你让系统预测下一个单词后，再将其输入到输入中，随后，系统基于更新后的序列预测再下一个 Token，并再次追加，如此循环往复。所以这基本上就是自动回归预测，一个在信号处理和统计学领域非常古老的概念。

如果这些神经网络构建的非常大，你可以使用非常大的输入窗口，并利用包含数万亿乃至数十万亿 Token 的海量数据集进行训练，其效果便会格外显著。这些系统似乎能够学习到很多关于语言或你正在训练的符号序列的底层结构，但自回归预测存在一个根本性的问题在座的数学家或许能比我在这个方面更严谨地将其形式化表述。

自回归预测本质上是一种发散过程，对吧？如果你想象一下，这些符号是离散的。所以每次你产生一个符号时，便存在多种选择，也许多达 10 万种，你可以把所有可能的Token序列想象成分支因子为10万的巨树。在这棵巨大的树中，有一个小子树，它对应于所有可以被定义为“正确”的答案或合理的续写。

因此，如果提示是一个问题，那么后续生成的包含答案的文本序列便都位于这棵小子树之内。问题在于，如果你假设哪一个是错误的，那么每次你产生一个符号时，都有一定的错误概率，假设每生成一个符号便有固定的错误概率e的，且各步错误是独立的，那么，n个符号序列正确的概率为 (1-E)^N，即使e非常小，但随着序列长度 N 的增加，该正确概率也会呈指数级衰减并趋近于零。这个问题是自回归预测框架所固有的，在当前框架内无法解决。

所以我的预测是，自回归LLMs将在几年后注定失败，理性的人们可能将不再使用它们，这就是为什么经常出现 LLM 产生幻觉的现象，有时他们会产生胡言乱语，这基本上就是因为这种自回归预测机制。

所以问题是，我们应该用什么来代替它，现在有没有其他类型的限制？因此，我认为我们错过了一些非常重要的东西，比如如何构建人工智能系统的新概念，仅仅通过在更大的数据集上训练大型语言模型来达到人类的人工智能水平，这是绝对不会发生的。我会在一分钟内给你另一个原因。

且不说达到人类的水平，即使试着复制数学家或科学家的能力也相差甚远，我们甚至不能复制猫能做的事情。猫对物理世界有着惊人的理解，我拿猫来距离。换成老鼠也同样适用。我们不知道如何让一个AI系统在理解物理世界方面像猫一样。猫能够规划非常复杂的行动。他们有关于世界的因果模型(Causal Models)，他们知道自己行为所产生的后果。

人类的能力更是惊人的。一个10岁的孩子可以在不真正学习任务的情况下，清理餐桌并将碗碟放进洗碗机。你要求一个10岁的孩子做这件事，他很可能在首次尝试时就能完成，这被称为零碎片学习，因为这个孩子已经具备了相当完善的世界心智模型，理解物体在被操控时的反应方式以及事物应有的状态。

一个17岁的人可以在20个小时的练习中学习驾驶汽车，自动驾驶公司拥有数十万人驾驶汽车的培训数据。我们仍然没有自动驾驶汽车，至少没有L5级自动驾驶汽车。我们有AI系统，他们可以通过律师考试，他们可以做数学问题，他们可以证明定理，但是L5级自动驾驶在哪里？我的家用机器人在哪里？我们仍然无法构建与现实世界打交道的系统。

物理世界比语言复杂得多，这被称为莫拉维克悖论，对吧？对于人类来说很复杂的任务，比如计算积分、求解微分方程，下棋还是去规划城市路径等。这些对人类来说是一种艰巨的任务。事实证明，计算机在这方面比我们好得多，就像它们在下棋对弈方面比我们好得多，这真的让人类望尘莫及。当人们把人类智能称为通用智能时，那完全是无稽之谈。我们根本不具备通用智能。我们是高度专业化的。

所以，仅仅通过文本训练是无法达到人类水平的AI。你可以做一个有趣的计算。一个典型的现代LLM大约是在20 万亿个 Token 上进行训练的。每个 Token 大约是3个字节。所以那将是60TB。让我们将这个运行到100TB。我们任何人都需要几十万年才能读完这个。这基本上构成了互联网上公开提供的所有文本的全部。所以，我的意思是，这似乎是一个令人难以置信的训练数据。

但是现在拿一个人类孩子来说，一个四岁的孩子，总共清醒的时间是16000个小时。

我们有200万个视神经纤维，每只眼睛有一百万个进入视觉皮层。每个视神经纤维每秒携带约1字节，也许少一些，但谁在乎呢？所以计算一下，四年内大约是100TB。这只是物理世界中我们从视觉、触觉和听觉中获得的感官信息，比所有人类产生的文本都要多得多。

再说一遍，除非我们能让系统通过观察世界来学习世界的运作方式，否则我们永远无法达到人类的AI水平。感官输入所能提供的信息比文本中更多。

心理学家已经研究过婴儿如何学习现实世界。在前几个月里大多数都通过观察来学习，因为婴儿在头三四个月里除了活动自己的四肢外，并不能在世界上进行有效互动，因此他们通过观察学习了大量关于世界的背景知识。

这是一种自我监督学习的形式，我认为如果我们想让人工智能系统达到动物水平或人类水平的智能，我们绝对必须复制这种形式。

婴儿会学习物体恒存性，即一个物体隐藏在另一个物体之后，它仍然一样存在，还有稳定性以及自然物体类别等概念，即使不知道它的名字。然后是直觉物理学，重力，惯性，动量守恒等物理规律。这个时期的婴儿大约在九个月左右就能掌握这些。因此，如果您向6个月的婴儿的展示一个物体似乎漂浮在空中的场景，6个月大的婴儿不会特别惊讶。但是10个月大的婴儿会像这里的小女孩一样用大眼睛看着它，并且真的很惊讶，因为到那时他们已经知道没有支撑的物体应该会掉落。这只是通过观察，通过那个年龄的互动发生的。

为了达到人类级别的人工智能，我们称之为AMI，我们不称之为AGI，因为人类智能不是通用的。所以我们称之为AMI，即高级机器智能。我们发音为 “ami”，在法语中意为朋友。因此，我们需要能够通过观察和感官输入来学习的世界模型系统，以便它们能够接触物理学和常见感知等。我们还需要具备持久性记忆的系统，可以规划复杂动作序列的系统，可以推理的系统，以及通过设计而非微调而可控和安全的系统。我唯一能想到的构建这样的系统的方法是彻底改变这些系统执行的推理模式。

因此，当前的推理模式是将输入信号通过固定数量的网络层处理后生成输出。然后，对于每个 Token，它都会花费固定的计算量。因此，让LLM花更多时间思考某件事的技巧是欺骗它产生更多的 Token。这就是所谓的思维链推理。这在近期被誉为AI的巨大进步。

因此，通过在神经网络中固定层数运行信号来计算的函数类型非常有限，假设一个合理大小的神经网络是有限的，因为你想要解决的大多数任务需要许多计算步骤。你不能仅仅把它们简化为几个步骤。你知道，现在许多计算任务本质上是串行的或顺序的，而非纯粹的并行结构。因此，您可能需要花更多时间考虑更复杂的功能，而不是回答简单的问题。

执行推理的更好方式或许是“通过优化进行推理”。基本上，你有一个观测值，你可以通过神经网络的几层运行它，然后你有一个成本函数，它本身是一个产生标量输出的神经网络。要衡量的是输入和假设输出之间的兼容或不兼容程度。所以现在的推理问题变成了一个优化搜索输出的问题，给定输入 ‘x’，去寻找能使该目标 (成本) 函数最小化的那个输出 ‘y’。我将这种方法称为目标驱动的 AI，当然，这并非一个全新的概念。

像大多数概率推理系统一样，使用优化执行推理。我知道房间里有相当多的人从事过最优控制的工作，因此规划和最优控制、运动模型、预测控制等都可以通过优化产生输出。关于这一点，我稍后会再详细说明。

所以这个想法并不新鲜，但我们已经忘记了。我想我们必须回归这种方法。我们必须构建一个体系结构能够通过优化进行推断的系统。其中，“输出”被看作一个潜变量，需要依据输入和目标函数来进行优化确定。这在传统的AI中是非常经典的，在可能的解空间中寻找解决方案的想法，那非常传统。这只是有点被遗忘了。

可以这样解决的任务类型在某种程度上相当于心理学所谓的“系统2”思维模式。因此，在人类认知中，这两种产生行为的类型，其中一种被称为系统1，这是你潜意识里做的一种任务。你可以采取行动，甚至不用考虑它。然后系统2是你必须投入整个意识的时候。如果你想完成任务，必须集中意识、深思熟虑来规划一系列行动时，系统 2 就开始工作了。例如，如果你正在建造一件东西，而你不习惯那个任务，你将使用系统2。当你证明一个定理时，你肯定在使用系统2。

那么，什么是最好的方式来正式表示优化影响的这个过程，这正好对应了能量基模型(Energy-Based Models)的核心思想。因此，一个 EBM 会计算一个称为“能量”的标量值，该标量数测量输入X和候选输出Y之间的不兼容程度，并通过将此能量相对于y最小化来执行推理。我将这个称为能量函数F（X，Y）为什么f不像E那样呢？因为它是F关联到自由能，我们在这里越来越接近吉布斯类型。

所以这就是现在的推理过程，通过这种类型的标量能量函数来建模两个变量之间的依赖关系比仅仅运行从x到y的函数要通用得多，原因是对于给定的 X，可能存在多个与之兼容的 Y 值。例如，如果你在这里试图解决的问题是从英语翻译成法语，那么有很多方法可以将特定的英语句子翻译成法语，所有这些好的翻译都应该对应较低的能量值，以表明这两个东西对于翻译任务是兼容的，但它不像单个输出是正确的，所以基本上我在这里谈论隐式函数，右侧代表变量之间的依赖关系或隐式函数，这是一个非常简单的概念，不是一个明确的概念，令人惊讶的是，对于某种类型的计算机科学家来说对此难以掌握。

那么我们如何在一个可能能够规划行动的智能系统中使用这些基于能量的模型呢？这有点像能量函数标量能量函数的内部结构的图，可能是方块图。因此，在这个图表中，圆形表示变量，无论是观察到的还是潜在的模块，一端是平的，另一端是圆形的代表确定性函数。假设一个产生单个输出的神经网络。矩形表示目标函数，基本上是标量输出。输出在这里是隐式的，但是标量值函数在输入可接受时取较低的值，在输入不可接受时取较大的值。因此，在这里，您可以有两种类型的目标，一种是衡量系统完成您想要完成的任务的程度，另一组目标可能是护栏。所以防止系统做愚蠢的事情、危险的事情、自我毁灭的事情或对周围的人类有害的事情。

所以过程始于观察世界的状态。该观察结果首先被送入感知模块，该模块生成世界当前状态的表示。由于感知可能是不完整的，所以你可能想把它与记忆的内容结合起来，其中包含你对你记忆中可能存在的其他世界状态的想法。将这两件事结合起来，并将它们提供给世界模型，世界模型应该做的是预测采取特定行动序列的结果。所以动作序列在黄色变量框中，世界模型会预测出一系列后续的状态表示 (S_t+1, S_t+2…)。这些预测的状态表示，随后被输入到目标函数中进行评估。假定所有这些模块 (感知、世界模型、成本模块) 都是可微的(例如，可以由神经网络实现)，那么就可以将梯度从成本函数出发，经由世界模型，一路反向传播到行动序列上。通过使用基于梯度的优化方法 (例如梯度下降)，就能找到一个可使总体成本 (目标函数值) 最小化的行动序列。这个过程，本质上就是在进行规划。

所以这是一个系统能够通过优化进行推理的过程。但它需要一个世界模型，才能预测其行为的后果。在最优控制理论里，这是一个非常经典的观点，即你有一种你想要控制的世界或系统的模型，你给它一系列的动作，他就可以进行预测结果，比如你想拍摄空间站。你有一个火箭的动力学模型，你可以假设一系列控制，然后预测火箭是否会结束，你可以有一个成本函数来衡量火箭离空间站的距离。然后通过优化，找出一系列将到达或到达空间站的控制措施，非常经典。这叫做“模型预测控制” (MPC)。自上世纪年代以来，MPC 在最优控制、机器人技术，甚至火箭轨道规划这些领域，都有非常广泛的应用。

当然，现在世界并不完全是确定性的，所以你的世界模型可能需要潜在变量，即你不知道其值的变量。没有人告诉你他们采取了什么价值观。它们可以采用许多不同的值。也许他们可以从分布中撤回，并且可能会产生多个预测。因此，使用具有潜在变量的世界模型在不确定性下进行规划将是一件好事，潜在变量基本上代表了你对世界不了解的一切或允许你进行预测的一切。

但这并不是一个可以解决的问题。我们实际上想做的是分层规划。我们所有人都这样做。动物可以做到这一点。今天没有任何AI系统可以学习如何进行分层规划。我们可以通过手动构建所有内容来让他们进行分层规划，但没有系统真正知道如何进行分层规划。

假设我坐在纽约大学的办公室里，我决定去巴黎。我不可能只靠规划具体到毫秒级的肌肉怎么动，这是最低层级的动作，来计划好从办公室到巴黎的整个行程，这做不到。首先因为它的序列太长了。其次，我甚至没有任何信息。我不完全知道路上的红绿灯是红色还是绿色。那么我需要计划停下来还是过马路？但是在高层次上，我可以从我的心理模型中获得一种高层次的预测心理，即如果我想去巴黎，我需要去机场并赶飞机。

好的，现在我有一个子目标去机场。我怎么去机场？我在纽约，所以我可以到街上去叫辆出租车。我怎么走在街上，我得从办公桌前站起来，去到电梯，按下按钮，然后走出大楼。我怎么去电梯？我需要从椅子上站起来，想着我的包，打开门，走到电梯，避开路上的所有障碍物。

在某种程度上，当你往下走的时候，到了某个足够具体的层级，详细的行动规划，比如刚才说的毫秒级肌肉控制才变得可行，因为这时候，做动作需要的实时信息都有了，比如，站起来、开门这些动作，就可以在当前这个局部环境下规划。

所以，怎么学习世界模型，怎么学习分层世界模型，怎么学习世界的抽象表示，好让系统能在不同的时间尺度上做预测，从而有效地规划，目前没有人知道如何精确地做到这一点，如何使其发挥作用。因此，如果我们对我告诉您的所有部分进行取样，最终会得到一种称为AMI认知的架构的东西，它可能的“认知架构”是什么样的。这个架构里，得有一个世界模型，还得有各种各样的“目标函数”，一个“行动者”，它负责优化动作来降低成本，还得有“短期记忆”，有点像大脑中的短期记忆是海马体，即感知模块。这是整个大脑的后部。

大概两年半以前，我为此写了一篇很长的论文，我把它放在公开评论中，而不是在档案中，我在档案中解释如果我们想在这个方向上取得进展，我认为AI研究将走向何方。这是在“大语言模型”热潮之前，尽管LLMs已经存在，但我从来就不信光靠 LLM 就能搞出达到人类水平的 AI。

我们如何让AI系统从视频等感官输入中学习世界的心智模型？我们能不能像训练 LLM 那样，用“自回归预测”的思路，去训练一个“生成式架构”，让它能预测视频的下一帧画面呢？答案是否定的，它不起作用。我已经尝试做了20年的工作。完全失败，它不起作用。它适用于离散的符号，因为处理预测中的不确定性很简单。你生成一个概率向量，也就是一串加起来等于 1 的、0 到 1 之间的数字。

现在的问题是如何在高维连续空间中预测视频帧，我们不知道如何以任何有意义的方式表示概率密度函数。在这样的事情中，我们可以将它们表示为一个能量函数，然后将其归一化。这有点像统计物理里的做法，比如用玻尔兹曼分布 (Boltzmann distribution)，就是那个 exp (-能量/kT)。但是，对于高维空间里复杂的能量函数来说，要算出那个归一化常数（也叫“配分函数” (partition function)），通常在计算上是搞不定的。

所以，使用生成模型来训练系统来预测视频的想法是行不通的。但目前有很多人正在研究它。但他们感兴趣的并不是运行世界模型。它实际上是在生成视频。如果你的目标只是生成视频，那这个方法也许还行。但是，如果你想让你的系统真正理解世界的底层物理学，那就输了。原因是，如果你训练一个系统进行单一预测，这就是生成模型所做的，你得到的是模糊的预测，基本上，因为系统只能预测可能发生的所有可能未来的平均值。

所以我的解决方案叫做JEPA，它代表联合嵌入预测架构。

这就是它的样子，你可能不会立即发现与生成式架构的区别。让我把这一点说得更明显。在左边，生成式架构。你在训练期间最小化的函数基本上是一个预测误差，对吧？所以预测y，观察X，在训练期间观察y，然后训练一个系统来预测y，这就像自监督学习，除了如果y是序列，则y是x的一部分。因此，受监督的细胞对离散y起作用，对连续的高维y不起作用。

右边这个就是联合嵌入预测架构(JEPA)。现在X和Y都通过编码器运行，编码器所做的是计算一个抽象的表示，即X和Y的表示，编码器可能不同，然后预测是在这个抽象的表示空间里进行的，就是从 X 的表示来预测 Y 的表示。

现在，从很多方面来看，这是一个更容易解决的问题，因为世界上有许多细节是完全不可预测的。JEPA架构所做的基本上是找到世界的抽象表示，以便从该表示中消除所有无法预测的东西。

将编码器函数视为某种具有不变性的函数，因此，与您无法预测的事物相对应的输入y的可变性在表示空间中被消除了，比方说，一个镜头在这个房间里扫过。要是我停下镜头，让系统预测下一帧画面是啥什么，它可能能预测出大体的场景（比如座位上有人），但它绝对预测不了每个人的精确位置和长相，也预测不了地板、墙壁的精确纹理。有很多事情无法预测，因为需要的信息根本就不在输入画面里。JEPA 就是要学习一种能过滤掉这些不可预测细节的表示，把预测的精力集中在那些能预测的事情上，而不是在那些压根儿预测不了的东西上白费力气。

因此结论是，如果我所说的是正确的，用JEPA 架构比使用生成式架构要好得多，后者应该完全放弃生成式架构。为了学习世界模型，我们也许真该放弃那种像素级别的生成式预测了。现在大家都在谈论“生成式 AI”。而我的建议是，要想学习世界模型，就得放弃生成式 AI。

这些架构也有不同的变种，有些可能还会用到潜在变量。但我不会详细介绍这些细节。但有一个问题，那就是你如何训练这些东西。因此，基本上，训练这样的系统来学习依赖性包括学习能量函数，使能量函数在您的训练样本中具有较低的值。因此，在你有数据的x，y点上，能量应该很低，但在其他地方能量应该更高。所以想象一下，x，y可以依赖于你想要的能量函数的某个流形，比如说在流形上为零，然后随着你远离流形而逐渐增加。这个问题在于我只知道两种像这样的训练系统。

如果这个能量函数以一种允许你采取许多不同形状的方式参数化，你可能会遇到一个问题，即如果你只是确保训练样本周围的能量很低，而你不做任何其他事情，它可能会崩溃。你最终可能得到一个完全平坦的能量函数。这就是所谓的崩溃。

所以有两种方法可以防止崩溃。一个是生成对比样本，这些点不在正常的数据流形上。然后你明确地告诉模型，要给这些反例打高分，同时给那些正常的样本打低分。你通过设计一个“损失函数”来达到这个目的。但对比方法的毛病在于，到了高维空间它就不太好使了，因为要想把能量函数的样子给塑造好，你需要特别特别多的反例样本，这个数量会随着维度增加呈指数爆炸式增长。

所以有一种替代方法，你可以称之为正则化方法。这些方法所基于的基本上是提出一些正则化函数，如你通过最小化这个正则化项，来间接地限制那些被打低分的输入空间的“体积”，不让它变得太大，这听起来有点神秘，但实际上，在应用数学的背景下，有很多事情都做到了这一点。例如，在稀疏编码中，这实际上就是稀疏编码所做的。当您指定一个立子变量时，基本上可以最小化可以占用低能量重建能量的空间体积。

好的，那两种方法，对比方法和正则化方法。有不同类型的架构可能发生崩溃的倾向性也不一样。既然这是吉布斯讲座 (Gibbs lecture)，我必须再提一下Gibbs的名字。怎么把能量函数转化为概率分布呢？就是用“吉布斯-玻尔兹曼分布” (Gibbs-Boltzmann distribution)。你算一个 exp(-β * F(X,Y))，β 是个常数，类似“逆温度”，F(X,Y) 就是能量函数。然后你把这个式子在 Y 的所有可能取值上做个积分，用这个积分结果去除它本身，进行归一化。这样，你就得到了一个规规矩矩归一化了的条件概率分布 P(Y|X)。如果你非要搞“概率建模”，那你训练“能量基础模型”的办法，就是在训练数据上最小化那个“负对数似然函数” (negative log-likelihood, -log P(Y|X))。但问题又来了，那个归一化常数 Z(X)，通常算起来太难了，计算上搞不定。所以你就得用近似的方法，比如“变分方法” (variational methods) 或者“蒙特卡洛方法” (Monte Carlo methods)。机器学习领域的很多人都这样做了，也从物理、统计这些学科里借鉴了不少想法。我画了个表，把各种经典的方法分成了正则化和对比这两类。

因此，这些方法，无论是对比还是正则化，都非常成功地基本上预先训练了视觉系统，以学习图像的表征，即自我监督的方式。这个想法可以追溯到20世纪早期，我的一篇论文和中期与我的一些学生一起。最近有更多来自谷歌的论文，很多人一直在研究对比方法。

你可能听说过一个名为Clip的模型，它是由OpenAI或使用文本监督学习视觉特征生成的。这是一种对比方法，但再次强调，它不能很好地适应维度。

所以我更喜欢正规化的方法。问题是，你如何使这项工作成功？使这起作用的一种方法是你必须防止系统崩溃。那在这种情况下，崩溃到底是什么样子呢？

崩溃指的就是将在于最小化预测误差。只有这样做，那系统就可以完全忽略X和Y，生成常数S_X和S_Y，然后你的预测问题就微不足道了。你的预测误差一直是0，但是这样得到的模型，就是个崩溃了的模型，对你没有任何帮助。那么我们要怎么防止这种情况发生呢？

这基本上是一个正则化术语，试图最大化来自编码器的信息内容，比如，对信息内容进行一些估计，其中 -(S_X) 和 -(S_Y)，在前面加上一个减号，并将其最小化。现在，这是一个挑战，因为我们不知道如何最大化信息内容。我们知道如何最小化它，因为我们有信息的上限。我们对信息没有下限。所以，实际操作中，我们是设计一些“代理”目标，通过优化这些代理目标，来间接鼓励模型产生信息量更高的表示（这可能基于一些假设或近似），并期望实际的信息量也跟着提高。以便实际的信息内容实际跟随。而且这招效果还挺不错的，虽然它的理论依据还在完善中，但可能比其他方法要好。

所以，如果你能提出信息内容的下限就好了。但坦率地说，我认为这是不可能的，因为可能存在你不了解其本质的复杂依赖关系。所以它不起作用。

那么基本的想法是如何将一个数字放入一种关于信息含量的可微目标函数中？基本的想法是让来自你编码器的表现填补这个空间。这个想法几乎是由多个人在不同的背景下同时提出的。

基本上有两种方法可以做到这一点。因此，对比方法应该被称为非常简单的对比方法，因此，对于多个样本，从您的编码器中取出一个向量矩阵。对比方法试图使向量从编码器中出来完全不同，想象一下，它们都在一个球体的表面上，因为你将它们归一化，你基本上是在推动所有这些向量远离彼此。所以他们展示了空间，它不能很好地工作。我的意思是，你基本上需要很多行才能工作，做一些有用的事情。

如果您的行数很少，那么很容易让随机向量正交。所以我们需要很多规则才能做到这一点。所以反过来是维度合约跟踪方法，你取该矩阵的列，并尝试使这些列彼此不同，可能相互正交。这只适用于相对于维度的行数较少的情况，否则就太容易了。

你只有少量的高维向量。这需要正交吗？我的意思是，随机抽取它们，它们几乎是正交的，所以你在这两者之间有一种二元性。实际上，我们有一篇论文论述了这两件事是彼此的事实，但我更喜欢第二个，因为它们可以处理高维表示空间，而第一个确实可以。

我们具体在用的一种方法叫做VicReg，这意味着方差-不变性-协方差正则化。它的想法里包含一个成本项，要求在处理一批样本时，表示 S_X 的每个维度的方差都要保持在某个阈值以上。还有一个成本项，要求这批样本表示算出来的“协方差矩阵”，它的非对角线上的元素都要趋近于零。这样做的目的是消除表示向量各个维度之间的相关性，最理想的情况是让不同的特征维度之间近似“正交”。其他研究者也提出了类似的想法，包括伯克利的马毅教授，还有我在纽约大学的一些同事。我们有一些理论结果表明，在某些条件下，如果你先对数据做了“非线性变换” ，然后再用这个去相关的标准，它能有效地促进变量之间“两两独立”，而不仅仅是没相关性，这一点很有意思。不过，完整的理论图像还不清晰。对于嗅觉敏锐的数学家来说，这里面还有很多挑战。

现在我要跳过一些内容，因为我没有时间了。

你实际上可以将 VicReg 这个技术用到“偏微分方程” ，不一定是为了直接解方程，而是比如，通过观察方程解在不同时空窗口里的样子，来反推出方程本身的系数。具体怎么做呢？你拿到 PDE 的时空解，从里面随机取两个不同的窗口，然后训练一个系统用 VicReg 的标准，让它不管你取哪两个窗口，都能给它们算出一样的表示。你想，能让系统从不同窗口里提取出来的、共同的不变信息是啥呢？那只能是跟背后那个微分方程本身有关的东西——说白了，就是方程的系数，或者是系数的某种表示。把这个方法用到各种实际问题上，发现它确实管用。想了解更多细节的话，可以找 Randal Balestriero聊聊。他是相关论文的主要作者之一。最重要的是，用 VicReg 这种方法学出来的 PDE 系数，用它去做后续的预测，你会得到一个比监督学习训练更好的预测效果，这有点有趣。

好的，还有另一组替代VicReg的方法，称为基于蒸馏的方法，我们使用它们是因为它们效果很好，但我不喜欢它们，因为感觉它们的理论基础好像还不如 VicReg 或者信息最大化那些方法扎实。我不打算详细介绍它们是如何工作的，简单说，你名义上是在最小化某个函数，但实际上你用的那个“梯度下降” 更新步骤，并不能真正让那个函数达到最小值；这里面挺复杂的。

在下面列出了一些关于这个的理论论文，但它们通常只在很简化的假设下才成立，并不是一个令人满意的方法。但它真的很有效。很多人一直在使用它来自监督的学习图像特征，我没有时间详细描述，但它在学习图像方面做得非常好，然后您可以将其用在后续任务中，而无需太多的标签样本。

然后有一个叫做视频V-JEPA的视频版本。拍摄一个视频，在时间和空间上随机“遮掉”一大部分区域，例如，然后你训练一个 JEPA架构，从部分掩盖的表示来预测完整视图的内部表示。结果发现，这样训练出来的系统能学到非常好的视频表示。你可以将该表示用作系统的输入，该系统可以对视频中发生的动作进行分类，它效果很好。

关于这项技术的一个非常有趣的事情是，这是我们刚刚完成并正在提交的一篇论文。当你测试这些系统并测量他们在视频上所做的预测误差时，如果你展示一个物理上不可能的视频，比如一个物体消失或自发地改变形状，它告诉你，它告诉你这是不可能发生的。这说明这个系统已经学到了一种非常基本的、关于物理世界可能性的“常识”。所以这些，这是学习了一种非常基本的常见感知形式，有点像我之前谈到的婴儿。我的意思是，这确实是一个令人惊讶的结果，因为该系统实际上没有受过预测的训练。它只是被训练去预测那些被遮住的部分应该是什么样的表示而已。

我们还一直把自监督学习训出来的编码器和预测器用在规划任务上。这就又说回到世界模型了。

所以我来到了这个想法世界模型。所以假设你有一张显示世界状态的图片，系统可以控制你想要的机械臂。使最终状态跟我们想要的目标状态一样。假设你桌子上有一堆蓝筹股，你想移动一个机器人手臂，最后，蓝筹股都在一个漂亮的小方块内，就像在图里画的一样。所以我们先训练一个编码器。因此，我们使用DINOv2 ，这是一个预训练的编码器，然后训练一个世界模型，以预测当你采取特定行动时，会导致什么结果。它能不能预测出来，最后那个摆着蓝色筹码的棋盘的状态，对应的表示是什么？一旦你有了那个模型，我们能不能用它来规划一连串的动作，最终达到我们想要的目标状态呢？

我们将此套方法用在了好几个问题上，它非常有效。但这是蓝色筹码任务的结果。所以你在这里看到的是一个视频。你看不到实际正在采取行动的机器人手臂的动作。上面显示的是世界上正在发生的事情。下面显示的是系统预测将在其内部世界模型中发生的事情。

这个预测结果是通过一个另外训练的“解码器”，以产生系统内部思维的图像。让我再看一遍。因此，在下面你可以看到机器人在推动事物时的配置进展。然后最终状态并不完全是正方形，但非常接近，这是一个非常复杂的动力学系统，因为筹码之间会相互碰撞、相互影响。

对于这样的系统，你很可能没法靠手工建立一个足够精确的模型来做有效的规划。我实际上，我们在规划现实世界中的导航方面也有类似的工作。

我要跳过这个，因为时间不多了，所以我的建议是，放弃生成式模型，转而使用联合嵌入架构，放弃纯粹的概率模型，拥抱基于能量的模型。放弃对比方法，转而使用正则化方法，放弃“无模型的强化学习”，我已经说了十年了，拥抱“基于模型的方法”，比如模型预测控制和规划。如果你真的想实现达到人类水平的 AI，别只盯着 LLM。事实上，如果你是一名AI博士，你绝对不应该在LLM 上工作，因为你得跟那些有几万块 GPU的大公司工业团队竞争，你将无法做出任何贡献。

怎么构建大规模的世界模型？如何根据多模态输入训练它们？规划算法？最优控制和各种优化技术方面的深厚功底，在这里可能会派上大用场。用简单的基于梯度的方法在这些学到的模型里做规划时，会碰到“局部最小值”和可能“不可微分”的问题。像ADMM（交替方向乘子法）这样的方法也许能帮上忙。其他的关键问题还有：怎么做带潜在变量的 JEPA？怎么在“不确定的环境” 里做规划？怎么有效地对潜在变量进行正则化？以及，怎么实现真正的分层规划？基于能量的学习，它的数学基础到底是啥？当我们跳出严格的概率学习框架时，我们就进入了一个不那么熟悉的领域，到底什么样的训练过程才是最优的，还不完全清楚。还有一个我没怎么谈到的问题是，怎么让系统自己学习成本函数或者目标模块。世界模型难免不准确，怎么在这种情况下做有效的规划，并且不断调整模型，这也非常关键。

也许如果我们在未来十年或五年内解决所有这些问题，我们将构建真正智能，能够规划和推理的系统的良好道路。我认为唯一的办法就是让底层的平台保持“开源”。我一直是开源AI的大力倡导者。我真的相信这一点。如果我们成功了，也许人工智能将成为人类智能的强大工具，这肯定是一件大好事，非常感谢。

（文：AI先锋官）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复