Yann LeCun最新万字演讲：未来致力于模型架构创新

Datawhale干货

演讲：Yann LeCun，编译：数字开物

2月10日，Meta 首席 AI 科学家杨立昆在巴黎人工智能峰会发表演讲，批判了当前人工智能对大型语言模型的过度依赖，提倡“世界模型”，杨立昆称，尽管大语言模型取得了显著进展，但它们存在根本性的缺陷，缺乏对物理世界的真正理解、常识性推理以及人类和动物所展现的快速、零样本学习能力。未来的 AI 研究应聚焦于模型架构的创新，而非仅仅依赖于扩大模型规模和数据量。

此外，杨立昆强调了开源 AI 平台在促进创新和防止这项变革性技术被垄断的关键作用，他警告了闭源开发和政府可能限制开源模型的风险。

以下是本次对话完整实录，经翻译编辑：

主持人：我想欢迎我们的第二位，也是最后一位全体会议演讲嘉宾上台。接下来是 Yann LeCun。他是 Meta 的首席 AI 科学家，同时也是纽约大学的教授。Yann 是 Meta FAIR 以及纽约大学数据科学中心的创始主任。他的研究领域广泛，主要包括机器学习、计算机视觉、移动机器人和计算神经科学。2019 年，Yann 因在人工智能领域的杰出贡献荣获 ACM 图灵奖，并且是美国国家科学院和法国科学院院士。热烈欢迎 Yann，很高兴您能到来。

对人类级别人工智能的需求

Yann LeCun：非常感谢。很高兴来到这里。上次来应该还是在疫情之前吧。好的，接下来我要讲的内容会与 Bernard 刚才所谈及的内容有所关联。而且，我将要探讨的是 Michael Jordan 今天早些时候建议大家不要研究的领域。

实际上，我们确实需要达到人类水平的人工智能。这不仅仅是一个有趣的科学议题，更是一种实际的产品需求。未来，我们将佩戴智能眼镜等智能设备。通过这些设备，我们可以随时访问 AI 助手，并可以通过语音或肌电图等方式与它们进行互动。未来的眼镜最终会配备显示屏，尽管目前尚未实现。

我们需要这些系统具备人类水平的智能，因为我们最熟悉与人类智能进行交互。我们习惯于与他人互动，也熟悉人类的智能水平。因此，与具有类似智能形式的系统互动会更加自然和容易。

因此，这些无处不在的助手将成为我们与数字世界互动的媒介。正因如此，我们需要它们易于使用，以便更广泛的人群，包括那些不熟悉技术的用户，也能够轻松上手。然而，问题在于，与人类和动物相比，目前的机器学习技术还远远不足。我们尚未掌握能够制造出在学习能力、常识以及对物理世界的理解方面与人类和动物相媲美的机器的技术。

动物和人类都拥有背景知识，这使得他们能够快速学习新任务，理解世界运行的规律，并进行推理和规划。而这一切都基于我们所说的常识，尽管常识本身的概念尚不明确。我们的行为以及动物的行为本质上都受到目标的驱动。

因此，我认为，目前我们所拥有，或者说几乎所有人都在使用的 AI 系统，并不具备我们期望的特性。究其原因，主要是因为它们以自回归的方式，逐个 Token 地生成内容。你会得到一个 Token 序列——Token 可以是子词单元，但具体形式并不重要，重要的是它是一个符号序列。然后，系统会使用一个预测器在序列上重复运作，这个预测器会截取先前 Token 的一个窗口，并预测下一个 Token。

这些系统的训练方式是将序列输入到系统，然后训练系统在输出端复现输入内容。由于采用了因果结构，系统无法作弊，不能使用当前输入来预测自身。它只能依赖于位于其左侧的符号。这被称为因果架构。

这种方法非常高效。这就是人们常说的 GPT ——通用 Transformer 模型，当然，你也可以使用其他架构，不一定非得是 Transformer。关键在于这是一个因果架构。抱歉，屏幕闪烁的问题似乎没有解决。不管怎样，训练这些系统之后，你就可以用它来生成文本。方法是自回归地生成一个 Token，将其移至输入端，然后再生成下一个 Token，依此类推。这就是自回归预测，显然不是什么新概念。

但这种方法存在一个问题，那就是生成过程本质上是发散的。每次生成 Token 时，都有可能生成不合理的 Token，从而偏离合理答案的范围。一旦发生这种情况，后续就无法纠正。如果我们假设错误 Token 的生成存在一定概率，且这些错误是相互独立的（当然实际并非如此），那么误差就会呈指数级增长，最终导致我们今天所看到的大语言模型的幻觉问题。

然而，我们忽略了一些至关重要的东西。先不说要重现人类的智能，我们甚至连猫或老鼠，更不用说狗的智能都无法重现。它们可以完成许多令人惊叹的事情，并且理解物理世界。例如，家猫可以规划非常复杂的行动。它们对世界有因果模型。有些猫甚至知道如何开门、开水龙头等等。

再看人类，一个十岁的孩子可以在无需任何指导的情况下，零样本完成清理餐桌和装洗碗机的工作。第一次让一个十岁的孩子做这些事，她就能完成。一个 17 岁的青少年通过 20 小时的练习就能学会开车。但我们仍然没有能够像猫一样行动的机器人，没有可以清理餐桌的家务机器人，也没有实现 L5 级自动驾驶，尽管我们已经积累了成千上万，甚至数百万小时的监督训练数据。

这表明我们在某些方面存在根本性的缺失。然而，我们已经拥有可以通过律师资格考试、解答数学难题、证明定理的系统，但却没有家务机器人。这就引出了我们不断遇到的莫拉维克悖论：我们认为理所当然的事情，因为人类和动物可以轻而易举地做到，就以为它们很简单。但事实却远非如此，它们实际上非常复杂。而那些我们认为独特的人类能力，例如操纵和生成语言、下象棋、下围棋、玩扑克、创作诗歌等，结果却相对容易实现。

当前机器学习的局限性

也许造成这种现象的原因可以用一个简单的计算来解释。如今，典型的大语言模型是在约 30 万亿个Token，每个Token 大约是 3 个字节，因此，训练数据总量约为100 TB字节。即使是我们，也要花费近 50 万年才能读完如此庞大的数据量。这几乎相当于互联网上所有公开可用的文本内容。

现在，考虑一个人类儿童。一个四岁的孩子，累计清醒时间约为 16000 小时，顺便说一句，这仅仅相当于 30 分钟 YouTube 视频上传量。我们有 200 万根视神经纤维，每根纤维每秒大约传输 1 字节的数据，或许略少，但这并不重要。粗略计算，一个四岁儿童在四年内接收到的视觉数据量约为100TB，与最大规模的大语言模型数据量相当。对于盲童而言，他们通过触觉获取信息，数据带宽也大致相同。这说明了一些问题：仅仅依靠文本训练，我们永远无法达到人类水平的智能。这根本不可能实现。

尽管有些人，特别是那些在此领域有既得利益的人宣称，我们明年就能达到博士水平的智能。但这绝不可能发生。我们或许能在某些子领域、特定问题上，例如在下棋等领域达到博士水平，但在更广泛的领域，只要我们针对特定问题对系统进行专门训练，就像 Bernard 用视觉错觉所解释的那样，情况可能会有所不同。当你向大语言模型提出问题时，如果问题类似于标准谜题，系统会在几秒钟内给出答案，这实际上是它对预训练知识的简单 “反刍”。如果你稍微修改问题的表述方式，系统仍然会给出相同的答案，因为它并没有真正理解谜题背后的逻辑和原理。

那么，人类，特别是婴儿，是如何学习世界运作方式的呢？婴儿在最初几个月里就积累了大量关于世界的背景知识，例如物体永存性、固体性、刚性以及物体的自然分类等概念。甚至在理解语言之前，儿童就已经能够区分桌子和椅子。这种认知是自然而然形成的。大约在 9 个月大时，他们开始理解直觉物理学的概念，例如重力、惯性和相关现象。

这是一个漫长的过程，主要通过观察学习。四个月之前的婴儿主要通过观察，因为他们在那之前几乎无法与世界互动。但四个月之后，学习方式转向互动。然而，令人惊讶的是，婴儿所需的互动量非常小。因此，如果我们想要开发最终达到人类水平的 AI 系统（这可能需要相当长的时间），我们在 Meta 将其称之为高级机器智能（AMI）。我们不太喜欢 “通用人工智能”这个术语。因为我们认为人类智能实际上是非常专业化的，称之为 AGI 容易产生误导。所以我们称之为 AMI，发音为 “Ami”，在法语中是 “朋友” 的意思。

我们需要一些系统，这些系统能够从感官输入中学习世界模型，即关于世界如何运作的心理模型，你可以在脑海中操控这些模型，并从视频中学习直觉物理学。这些系统应具备持久记忆，能够规划行动，最好是以分层方式实现目标，并进行推理。此外，系统在设计上应是可控且安全的，而非依赖于微调，微调是当前大语言模型常用的方法。在我看来，构建此类系统的唯一途径是改变当前人工智能系统执行推理的方式。目前，大语言模型执行推理的方式是，通过运行固定层数的神经网络，生成一个 Token ，然后将该 Token 注入输入端，再次运行固定层数的网络。

问题在于，无论问题简单还是复杂，即使要求系统用“是”或“否”回答，例如“2 + 2 等于 4 吗？”或“P 等于 NP 吗？”，系统都会消耗几乎相同的计算量。因此，人们一直使用“作弊”手段，例如，指示系统进行“解释”，即采用“思维链技巧”，迫使系统生成更多 Token，以此增加计算量来解答问题。但这只是一种“权宜之计”。然而，统计学等领域的推理方法并非如此。在经典人工智能、统计学、结构预测以及许多其他领域，推理的工作方式是，首先定义一个函数来衡量观察结果与提出的输出之间兼容或不兼容的程度。然后，推理过程转化为寻找能够最小化这种不兼容性度量的输出值。明白吗？我们称之为“能量函数”。所以，存在一个“能量函数”，当它显示时，系统通过优化执行推理。现在，如果推理问题更复杂，系统自然会花费更多时间进行推理。换句话说，相比于答案显而易见的简单问题，系统会花费更多时间思考复杂问题。

实际上，这在经典人工智能中是非常核心的概念。经典人工智能的本质就是推理和搜索，以及由此产生的优化。基本上，所有计算问题都可以简化为优化问题或搜索问题。这在概率建模中也很常见，例如概率图模型。因此，这种推理方式更接近心理学家所说的“系统 2” 思考模式，或者可以理解为人类思维中的“系统 2”。“系统 2” 指的是在行动或一系列行动之前，你会预先思考计划。也就是在做事前先思考。而“系统 1” 则指无需思考即可完成的事情，它更像是一种潜意识反应。所以，目前的大语言模型属于“系统 1”，而我所提倡的是“系统 2” 模式。进一步解释，描述这种模式的恰当半理论框架是“基于能量的模型 ”。今天我无法深入细节，但其核心思想是通过“能量函数”捕捉变量间的依赖关系，例如观察变量 X 和输出变量 Y。当 X 和 Y 兼容时，“能量函数”值较低；反之，当 X 和 Y 不兼容时，“能量函数”值较高。

世界模型的必要性

你不希望仅仅像之前那样，直接从 X 计算 Y。你只需要一个“能量函数”来衡量不兼容程度，然后，给定 X，找到能使该 X 能量值尽可能低的 Y。好的，现在我们更详细地了解一下这种架构的构建方式，以及它与思考或计划的关联。一个系统大致会是这样的：系统从外部世界接收观察信息，这些信息被输入到“感知模块”，该模块负责生成对世界状态的估计。当然，世界的真实状态并非完全可完全观测，因此可能需要结合记忆，即存储你对当前未直接感知到的世界状态的理解。感知信息和记忆的结合构成了“世界模型”。那么，什么是“世界模型”？“世界模型” 是指，给定当前对世界状态的估计，以及你设想执行的一系列行动，它可以预测在你执行这些行动后，世界将演变成什么状态。明白了吗？这就是“世界模型”。例如，如果我让你想象一个悬浮在你面前的立方体，然后想象将这个立方体绕垂直轴旋转 90 度，你就能轻松在脑海中形成旋转后的立方体的心理模型。

好的，我开个玩笑，或许在我们拥有真正可靠的音视频技术之前，我们就已经实现人类水平的人工智能了。好的，那么，如果我们拥有这样一个“世界模型”，并且它能够预测一系列行动的后果，我们就可以将其输入到一个“目标”函数，更准确地说，是一个“任务目标 (task objective)”。这个“任务目标”函数评估预测的最终状态在多大程度上符合我们预设的目标，实际上就是一个成本函数。此外，我们还可以设置一些“护栏目标 (guard rail objectives)”。可以将这些“护栏目标”视为确保系统以安全方式运行所必须满足的约束条件。这些“护栏”将被明确地程序化实现，系统的运行方式将是通过优化。系统将不断寻找能够最小化“任务目标”和运行时“护栏目标”的行动序列。请注意，我们这里讨论的是推理，而不是学习。

这样就能确保系统的安全性，因为“护栏”机制本身就保障了安全。而且，你无法通过向系统发送“提示 (prompt)”来“越狱 (jailbreak)”系统，使其逃脱“护栏目标”的约束。“护栏目标”将被“硬编码 (hardwired)”到系统中，它们或许经过训练，但最终会被“硬编码”固定下来。现在，一个行动序列应使用同一个“世界模型”，并在多个时间步骤中重复使用。例如，你有一个“世界模型”，输入第一个动作，它预测下一个状态；再输入第二个动作，它预测下下一个状态。你可以在整个行动轨迹中设置“护栏”成本和“任务目标”。我没有具体指出可以使用哪种优化算法，但这对于我们当前的讨论并不重要。如果世界并非完全确定和可预测，我们的“世界模型”可能需要引入“潜在变量 (latent variables)”来解释那些未被观察到的世界因素，这些因素会导致预测不精确。最终，我们期望得到一个能够进行“分层计划 (hierarchical planning)”的系统，即系统可能在多个抽象层级上运作。例如，在底层，我们计划低级别的精细动作，如肌肉控制；而在高层，我们可以规划更抽象的宏观动作。在规划宏观动作时，“世界模型”可以预测更长时间跨度的未来状态，并使用更抽象的表示空间，从而忽略不必要的细节。

例如，如果我坐在纽约大学的办公室里，决定去巴黎，我可以将任务分解为两个子任务：去机场和赶飞机。现在，我的子目标是去机场。我在纽约市，所以去机场意味着走到街上打辆出租车。如何走到街上？这可以细分为走到电梯前，按下按钮，下楼，走出大楼。如何走到电梯前？这又可以细化为：从椅子上站起来，拿起包，打开门，走到电梯，避开沿途障碍物。最终，我会到达一个无需详细计划的层级，可以直接采取行动。我们一直在进行这种“分层计划”。但我要强调的是，我们尚不清楚如何通过机器学习实现这一点。几乎所有机器人都在进行分层规划，但层级结构中每一层的表示都是人工设计的。我们需要训练一种架构，也许就是我在这里描述的架构，使其能够学习抽象表示，包括世界状态的抽象表示，预测世界模型（用于预测未来），以及各个抽象层级的抽象动作。这样我们才能实现真正的分层计划。动物可以做到，人类尤其擅长。而这正是目前人工智能系统所欠缺的。如果你正考虑攻读博士学位，这将是非常好的研究方向，当然，可能需要三年以上的时间。

因此，基于以上思考，大约三年前，我写了一篇长文，阐述了我对人工智能研究方向的看法。这一切都发生在 “Chat GPT 热潮” 之前。我没有改变我的想法，“Chat GPT” 并未带来任何根本性改变。因为我们早就了解问答系统和大型语言模型，所以预见到今天的情况。这就是我写的那篇论文——《通往自主机器智能的道路》，现在我们称之为《迈向高级机器智能之路》，因为“自主”一词有时会引起不必要的担忧。这篇论文在开放评审 (open review) 平台上可以找到，我也以不同形式做过关于这个主题的演讲。

为了让系统理解世界如何运作，一个非常直接的思路是，借鉴我们训练系统进行自然语言处理的相似方法，并将其应用于视频等领域。例如，如果系统能够预测视频内容，你给它看一小段视频片段，并要求它预测接下来会发生的事情。我们推测，这将有助于系统理解视频背后的世界运行规律。因此，训练系统进行预测实际上可以促使其理解世界的深层结构。这种方法对文本有效，因为预测单词相对简单。为什么单词预测相对简单？因为单词本身，可能的单词数量是有限的，Token的数量也是有限的。因此，我们虽然无法精确预测序列中的下一个单词，或文本中缺失的单词，但可以为字典中的每个单词生成“概率分布”或评分。然而，我们无法对图像或“视频帧”进行类似操作。我们缺乏表示视频帧分布的有效方法。每次尝试这样做，基本上都会遇到数学上的难题。因此，可以尝试利用物理学家发明的统计学和数学工具来解决这个问题，例如“变分推理 (variational inference)”等等。但更有效的做法是彻底放弃概率建模的思路，转而学习一个“能量函数”。这个函数可以评估输出与输入的兼容性，而我并不需要关心这个“能量函数”是否是某个分布的负对数。我们需要这样做，根本原因是我们无法精确预测世界将发生什么。世界存在各种可能性。如果仅仅训练系统预测单个“视频帧”，效果不会理想。因此，解决这一问题的新架构是“联合嵌入预测架构”，我称之为JEPA。因为“生成式架构” 根本不适合用于生成视频内容。

JEPA架构作为潜在的解决方案

你可能已经看过一些视频生成系统，它们可以生成非常惊人的东西。它们背后有很多超出它们的技巧，而且它们并不真正理解物理学。它们不需要。它们只需要预测漂亮的图片。它们不需要真正拥有某种精确的世界模型。好的，这就是JEPA。这个想法是，你同时运行观察和输出，也就是下一个观察，到一个编码器中，这样预测就不在于预测像素，而基本上是预测视频中发生的事情的抽象表示。视频或任何东西，好的？所以，让我们比较一下这两种架构。在左边，你有生成式架构。你运行 X，观察结果，通过一个编码器，也许通过一个预测器或一个解码器，你对 Y 做出预测。好的？那是直接的预测。然后在右边，这个JEPA架构，你同时运行 X 和 Y 到编码器，这些编码器可能是相同的或不同的。然后你在这个抽象空间中从 X 的表示预测 Y 的表示。这将导致系统基本上学习一个编码器，消除所有你无法预测的东西。这真的是我们所做的。如果我观察这个房间的左边部分，并且我把相机摇向右边，任何视频预测系统，包括人类，都不可能预测你们每个人长什么样子，或者预测墙壁上的纹理，或者硬木地板上的木材纹理。有很多东西是我们根本无法预测的。因此，与其坚持我们应该对我们无法预测的东西做出概率预测，不如干脆不预测它。学习一种表示，其中所有这些细节基本上都被消除，以便预测变得更简单。它可能仍然需要是非确定性的，但至少我们简化了问题。

因此，JEPA有各种各样的变体，我不会详细介绍，其中一些有潜在变量，一些是动作条件化的。所以我将谈论动作条件化的，因为那是最有意思的，因为它们真的是世界模型，对吧？所以你有一个编码器，X 是世界的当前状态或当前的观察，SX 是世界的当前状态，你向预测器输入一个动作，你想象采取这个动作，而预测器，这是一个世界模型，预测世界下一个状态的表示。这就是你如何进行规划的。好的，所以，你需要，我们需要训练这些系统，我们需要弄清楚如何训练这些JEPA架构，事实证明这并非完全微不足道，因为你需要在这个JEPA架构中训练成本函数，这个成本函数衡量的是 Y 的表示和 Y 的预测表示之间本质上的差异。我们需要这个在训练数据上很低，但我们也需要它在训练集之外很大。好的？所以，这是，你知道，这种能量函数在这里有等能量的轮廓。我们需要确保能量在数据流形之外很高。而我只知道两种方法。一种方法叫做对比方法。它包括拥有数据点，这些数据点是那些蓝色深蓝色点，降低这些点的能量，然后生成，你知道，那些闪烁的绿色点，然后提高它们的能量。这种类型的方法，对比方法的问题是，它们在高维度上不能很好地扩展。如果你的 Y 空间中有太多的维度，你将需要在很多不同的地方提高能量，而且它不能很好地工作。你需要大量的对比样本才能使之工作。

还有另一组方法，我称之为正则化方法，它们所做的是在能量上使用正则化器，以便最小化可以接受低能量的空间体积。好的？这导致了两种不同的学习程序。一种是对比学习程序，你需要生成那些对比点，然后将它们的能量提高到某个损失函数。另一种是某种正则化器，它将有点像收缩包裹数据的流形。以便确保能量在外部更高。因此，有很多技术可以做到这一点。我将只描述少数几个，以及我们几年前开始测试它们的方式，也许五六年以前，是为了训练它们学习图像的表示。所以你取一张图像，你以某种方式破坏它或转换它，然后你在相同的编码器中运行原始图像和损坏的版本，你训练一个预测器来从损坏的图像预测原始图像的表示。一旦你完成训练系统，你移除预测器，你使用编码器输出端的表示作为到一个简单的，像线性分类器或类似类型的东西的输入，你训练有监督的分类器，以便验证学习到的表示是好的。这个想法非常古老，它可以追溯到 1980 年代，以及像我们过去称之为 Siamese 网络的东西。以及一些关于那些联合嵌入架构的更新近的工作，然后添加预测器是更近期的。Simclear，来自谷歌，是一种从 Siamese 网络衍生的对比方法。

但同样，维度是受限制的。因此，正则化方法的工作方式如下。你尝试估计，对来自编码器的信息内容进行某种估计，你需要做的是防止编码器崩溃。训练JEPA架构的一个简单解决方案是编码器基本上忽略输入，产生恒定的输出，现在预测误差始终为零。好的？显然，这是一个崩溃的解决方案，它没有意义。因此，你需要一个系统，你需要防止系统崩溃，这就是我之前谈到的正则化方法，一种间接的方法是保持来自编码器的信息内容。好的？因此，你将有一个训练目标函数，如果你愿意，这是一个负的信息内容，因为我们在机器学习中最小化，我们不最大化。一种方法是基本上获取来自一批样本的编码器的表示向量。并确保它们包含信息。你如何做到这一点？你可以获取表示向量的矩阵，并计算该矩阵与其转置的乘积，你得到一个协方差矩阵，你尝试使该协方差矩阵等于单位矩阵。所以这有一个坏消息，那就是这基本上通过对变量之间依赖关系的性质做出非常强的假设来近似信息内容，实际上，它是信息内容的上界，我们正在向上推它，交叉手指，下面的实际信息内容将会跟随。好的？所以这在理论上有点不规则，但是它有效。对吧？再次，你有一个来自你的编码器的矩阵。它有一些样本。每个向量是一个单独的变量。我们要做的是尝试使每个变量单独地具有信息量。因此，我们将尝试防止变量的方差变为零，例如，强制它为 1。

然后我们将变量彼此去相关，这意味着计算这个矩阵的协方差矩阵，转置乘以自身，然后尝试使结果协方差矩阵尽可能接近单位矩阵。还有其他方法试图使样本正交，而不是变量。那些是对照样本的对比方法。但它们在高维度上不起作用，并且需要大批量。因此，我们有一种这种类型的方法，这意味着方差不变协方差正则化，它有用于此协方差矩阵的特定损失函数。已经有类似的方法由 Yima 和他的团队提出，称为 MCR 平方，然后是纽约大学的一些同事提出的另一种方法，称为 MMCR，来自神经科学。所以这是一组方法，我真的很喜欢这些方法，我认为它们效果很好。我期望在未来看到更多这样的方法。但是还有另一组方法，在某种程度上，在过去几年中稍微更成功一些，这些方法是基于蒸馏的。所以再次，你有两个编码器。它仍然是一个联合嵌入预测架构。你有两个编码器。它们有点共享相同的权重，但并非真正如此。因此，右侧的编码器获得了左侧编码器的权重版本，这些权重是通过指数移动平均获得的。好的？移动平均。所以基本上你强制右侧的编码器比左侧的编码器更慢地改变其权重，由于某种原因，这可以防止崩溃。有一些关于这个的理论工作。

事实上，有一个 John Paul 刚刚完成写作。但这有点神秘，为什么这会起作用，坦率地说，我对这种方法有点不舒服，但我们必须接受它实际上有效的事实。如果你小心的话。你知道，真正的工程师在不一定知道它们为什么工作的情况下建造东西。那是好工程师。然后在法国通常的笑话是，这里每个人都应该学习的是，当他们建造东西时，它不起作用，但他们可以告诉你为什么。抱歉。我没在这里学习，你可以看出来。好吧，让我向前切换，稍微跳过一点，以节省时间，因为我们浪费了一点时间。好吧，所以有一种特殊的方式来实现这种蒸馏的想法。还有另一种叫做 Dino，我稍微跳过了。所以 Dino 是 V2。人们正在研究 V3。这是我巴黎的一些同事提出的方法。然后是一个稍微不同的版本，叫做 IJepa，VJepa，也是 Fair 的人在蒙特利尔和巴黎。因此，那里不需要负样本，而且那些系统学习的通用特征，你可以学习用于任何下游任务，而且这些特征真的很好。这效果非常好。我不打算用细节来烦你，因为我没有时间。

最近，我们研究了一个用于视频的版本。所以这是一个系统，它从视频中获取 16 帧的块，你获取那 16 帧，通过一个编码器运行它们，然后你通过掩盖其中的一些部分来破坏这 16 帧，通过相同的编码器运行它们，然后训练一个预测器来从部分掩盖或损坏的视频中预测完整视频的表示。这效果非常好，因为你学习的特征，你可以将这些特征输入到一个可以对视频中的动作进行分类的系统中，并且你使用这些方法获得了非常好的结果。这是我们刚刚提交的一篇论文。如果你向该系统展示一些非常奇怪的事情发生的视频，该系统实际上能够告诉你，我的预测误差正在飙升。那个窗口里发生了一些奇怪的事情。你拿一个视频，然后你取 16 个视频帧窗口，你在视频上滑动它，测量系统的预测误差，如果发生了一些非常奇怪的事情，比如一个物体自发地消失或改变形状，预测误差会飙升。

所以这告诉你的是，尽管该系统很简单，但它已经学习到某种程度的常识。它可以告诉你世界上是否正在发生一些非常奇怪的事情。大量的实验表明了这一点，在各种类型的直觉物理学的各种背景下，但我不会跳到这个最新的工作。所以这是使用 Dino 特征，然后在它之上训练一个预测器，它是动作条件化的，所以它是一个世界模型，我们可以用于规划。这是一篇在 arXiv 上的论文。还有一个网站，你可以在上面查看。所以基本上训练一个预测器，使用，你知道，世界的图片，你通过 Dino 编码器运行它，然后是一个动作，可能是机器人采取的动作，所以你得到视频的下一帧，来自世界的下一张图像，通过 Dino 编码器运行它，然后训练你的预测器，只需预测给定采取的动作会发生什么。好的？非常简单。

为了进行规划，你首先观察初始状态，通过Dino编码器处理它，然后使用想象的动作多次运行世界模型。接下来，你有一个目标状态，它由目标图像表示。例如，你通过编码器运行目标图像，计算预测状态与表示目标图像的状态之间的状态空间距离。然后，规划的过程就包括优化，找到一系列动作，以在执行时最小化该成本。你知道，测试时要计算等等，这听起来非常令人兴奋，仿佛它是一个新鲜的事物。实际上，这在最优控制中是一个完全经典的概念。这种方法被称为模型预测控制，它与我在世的时间差不多长，最早关于使用这种类型的模型进行规划、利用优化的论文来自上世纪60年代初期。那些实际学习模型的论文则更新一些，主要来自70年代，特别是来自法国。熟悉最优控制领域的人可能会知道它。这是一个非常简单的概念，但效果惊人。

所以，让我跳到视频，假设你有一个T形物体，你想把它推到一个特定的位置。你知道它必须去哪个位置，因为你已经为那个位置放置了图像，并通过编码器处理该图像，这就给你一个目标状态的表示。让我再次播放那个视频。在视频的顶部，你可以看到当你按照计划采取一系列动作时，真实世界中发生的实际情况，而在底部，你看到的是系统内部通过计划产生的动作序列预测，这些是通过一个解码器处理的，该解码器生成内部状态的图像表示，但该解码器是单独训练的，并且没有图像生成功能。让我跳到一个更有趣的例子。所以在这里，你有一个初始状态，地板上是一堆随机散落的蓝色筹码，目标状态在上方，你看到的是通过规划生成的动作，以及机器人执行这些动作。这个环境的动力学实际上相当复杂，因为那些蓝色筹码会相互作用。系统只是通过观察一系列状态-动作-下一个状态来学习。这种方法在很多场景中都有效，例如，机械臂操作、在迷宫中移动、推动T形物体等等。

我不确定我们为什么又回到了这个话题，为了节省时间，我会跳过这部分。基本上，这是一个系列的视频，其中每一帧都在某个时间点拍摄，然后机器人移动。通过里程计，你可以知道机器人走了多远，接着你得到下一帧。你只是训练系统去预测如果你采取特定的运动动作，世界会发生什么。接下来你可以告诉系统，比如说“导航到那个点”，它就能做到，并且能避开路径上的障碍物。这是非常新的工作。但让我转到结论部分。所以，我有几点建议：放弃生成模型。今天最流行的方法、每个人都在研究的方法，应该停止研究这些。你们应该研究JEPA。那些并不是生成模型，它们在表示空间中进行预测。放弃概率模型，因为它是棘手的。采用基于能量的模型。我和Mike就这个话题已经争论了大约20年。放弃对比学习方法，转而支持正则化方法，放弃强化学习，我已经说过很多次了。我们知道强化学习是低效的。当你的模型不准确，或者你的成本函数不准确时，你真的应该将强化学习作为最后的手段。但如果你对人类水平的AI感兴趣，就不要研究大语言模型。没有意义。

事实上，如果你在学术界，应该避免研究LLM，因为你正在与成百上千的人以及成千上万的GPU竞争，你几乎没有什么可以贡献的。去做别的事吧。这个领域有很多问题亟待解决，涉及用大规模数据训练这些模型等等。规划算法目前效率较低，我们必须想到更好的方法。因此，如果你喜欢应用于优化数学的工作，那是非常好的。带有潜在变量的JEPA、不确定性下的规划、分层规划，这些问题完全没有得到解决。学习成本模块，因为大多数时候你无法手工构建这些，你需要学习它们。还有探索等问题。

开源人工智能平台的重要性

所以在未来，我们将拥有通用的虚拟助手。它们将始终陪伴我们，并调解我们与数字世界的所有互动。我们不能容忍这些系统只由美国西海岸或中国的少数几家公司主导，这意味着我们构建这些系统的平台必须是开源的，并且广泛可用。虽然它们的训练成本很高，但一旦你有了基础模型，对特定应用的微调相对便宜，很多人都能负担得起。所以，平台必须是共享的。它们需要能够理解世界上所有的语言、文化、价值体系和兴趣点。世界上没有哪个单一实体能够训练这种类型的基础模型。这可能需要以协作或分布式的方式进行。再次给那些对大规模优化和分布式算法感兴趣的应用数学家提供一些工作。因此，开源AI平台是必要的。

我在欧洲以及其他地方看到的一个危险是，地缘政治竞争可能诱使一些政府宣布开源模型为非法，因为他们认为如果一个国家保密它的科学研究，它将保持领先。但这将是一个巨大的错误。当你秘密地进行研究时，你将最终落后。这是不可避免的。最终，世界其他地方将转向开源，并超越你。目前，开源模型正慢慢但稳步地超越专有模型。非常感谢。

一起“点赞”三连！

（文：Datawhale）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复