Claude 4 核心成员访谈：提升 Agent 独立工作能力，强化模型长程任务能力是关键

「2025 年最大的变化，是强化学习在大语言模型训练上终于开始奏效了。」

这是 Anthropic 的两位研究员，Sholto Douglas（专注于强化学习）和 Trenton Bricken（研究机制可解释性）对于今年模型趋势变化的总结。

Gemini 2.5 Pro 和 Claude Opus 4 的发布也变相证明了这个判断。

在 Dwarkesh Podcast 这期两个半小时的采访中，两位研究员对于 RLVR（可验证奖励的强化学习）、模型的自我意识、以及 Claude 一直专注的「模型可解释性」做了深入的讨论。

尤其是模型以及 Agent 之后的发展方向，比如人类驾驭多个 Agent 的可能性、以及现阶段应该提高模型的底线，而不是去追究极致。还有 AI 白领在未来两年的可能性，毕竟「Agent 操作电脑」并不难，只要环境具备。

他们还夸奖了 DeepSeek 在模型研发上的「品味」，颇有种「惺惺相惜」的感觉。

两个半小时的采访，我们还摘录了 Sholto Douglas 在另外一期播客的部分回答，聊得很深入而且很透彻。

TLDR:

2025 年最大的变化是强化学习技术在语言模型上真正奏效了，通过「可验证奖励的强化学习」，模型在竞技编程和数学领域达到了专家级人类表现。强化学习的主要作用是激活模型已有知识并将其组织成解决方案，而不是让模型从零开始学习。
人类在实际学习过程中，能够通过错误反馈改进和「边干边学」，但当前模型训练缺乏这种机制，业内普遍倾向于「算力优先，数据其次」的预算分配。如果模型能像人类一样「边干边学」，通过在实际工作中获取环境反馈来持续成长，将具有巨大潜力。
Opus 4 带来的最大变化在于时间跨度的扩展。Opus 在处理多步动作和长期任务的上下文管理方面表现出色，能够更长时间地进行有意义的推理和执行，甚至在无需用户频繁介入的情况下完成数小时的人力工作量。
随着 AI 能力的提升，用户与模型的交互频率将从秒级、分钟级向小时级甚至更长周期转变。未来用户可能同时管理多个模型执行多项任务，交互方式类似于「模型舰队管理」。
人类在学习具体任务时也需要大量示范，且泛化能力有限。当前模型的规模仍远小于人脑，但规模越大，学习越高效，所需示范越少。大型模型能将不同语言的表示整合在更统一的共享子空间中，从而提升泛化能力。
模型的可解释性工作是对神经网络进行逆向工程，找出其进行计算的基本单元。AI 模型现阶段是「生长」而非「建造」出来的，需要大量研究才能理解其工作原理。
用 AI 操作电脑并执行复杂任务并不难，操作电脑与软件工程的本质相同，只要所有操作能表示为 token，任务性质就是一致的。现在的核心限制不在于「能否做到」，而是如何更好地管理上下文和记忆系统。解决「从 0 到 1」的关键一步，未来自动化任务将迎来爆发式增长。
未来两年内（最迟五年内）将出现能够「即插即用」的白领 AI 员工，将对全球经济和劳动力市场产生颠覆性的影响。
如果 AI 在物理机器人技术发展滞后，但能自动化所有智力工作，可能会导致人类在经济价值链中退化为「人类血肉机器人」，被 AI 远程操控以完成物理任务。

播客原文：https://www.dwarkesh.com/p/sholto-trenton-2

超 4000 人的「AI 产品市集」社群！不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者，飞书扫码加群：

进群后，你有机会得到：

最新、最值得关注的 AI 新品资讯；
不定期赠送热门新品的邀请码、会员码；
最精准的AI产品曝光渠道

01

2025 年的最大变化，

强化学习开始奏效了

主持人：2025 年，你认为最大的变化是什么？

Sholto Douglas：我觉得最大的变化是，强化学习（RL）在语言模型上的应用终于真正奏效了。我们通过提供清晰的奖励信号（即「可验证奖励的强化学习」）的前提下，模型在竞技编程和数学等领域表现出了专家级的人类水平和可靠性。

可以从两个维度来理解这个问题：一个是任务的智力复杂度，另一个是任务持续的时间尺度。从智力复杂度这条轴来看，我们已经证明模型可以在多个方向上达到相当高的水平。不过，长期持续性行为的 Agent 能力我们还没有完全实现，现在只是刚刚迈出第一步，但预计到年底前会看到更有力的成果，比如真正能参与软件工程项目的 Agent 系统。Trenton，你现在是不是就在做这方面的实验？

Trenton Bricken：对，完全正确。目前公开的例子，比如用 Claude 玩 Pokemon 游戏，就很有代表性。虽然看着模型在游戏里挣扎有点心疼，但每一代模型的表现都比前一代更好。它的问题主要还是出在记忆系统的使用上，而不是别的。

主持人：回到去年，你们会预料到现在的 Agent 能力就只有这个水平吗？

Sholto Douglas：就软件工程这个方向来说，现在的发展大致符合我的预期。我原本以为它们在操作计算机方面会做得更好一些。但也能理解背后的原因，我觉得这些问题很快就能解决，毕竟只是阶段性的技术瓶颈。

如果要我对今年做预测的话，我真的认为，到今年年底或者明年年中旬，我们会有能完成相当于初级工程师一天工作量，或者几小时独立任务的高效软件 Agent 系统。

Trenton Bricken：我同意你的看法。不过能力的分布确实很不均衡。有些任务，比如生成模板化的网页代码，模型现在就能完全胜任，能节省你整整一天的工作量。

Sholto Douglas：对，完全没错。

主持人：你们去年说，模型最大的障碍是「额外的几个 9 的可靠性（99.9999，主要指小数点后的 9）」。你们现在还这么看吗？也就是说，模型现在之所以只能帮你完成几分钟的工作，而不能撑起一整天，是因为缺少那几个「9」吗？还是说问题已经变了？

Sholto Douglas：回过头看，我觉得我当时的说法可能并不是问题的核心。目前的限制更多是：上下文不够，缺乏处理复杂、跨多个文件的大型变更的能力……问题的关键在于任务本身的范围。如果任务范围明确、上下文集中，即使智力要求很高，模型表现也会很好。但如果任务本身比较模糊，或者需要在环境中不断探索和迭代，那模型就会吃力。如果你能为模型构建出一个良好的奖励反馈机制，模型的表现会相当不错；否则，反之。

主持人：能不能给听众解释一下你所谓的「奖励反馈机制」是指什么？毕竟有些人可能还不太了解 RL 的应用。

Sholto Douglas：好的，这其实是去年真正取得进展的关键点。我们通常把这个方向称为「可验证奖励的强化学习（RL from Verifiable Rewards）」，也就是说，给模型提供清晰的奖励信号。

语言模型的早期突破主要靠「基于人类反馈的强化学习（RLHF）」。最初我们采用的是类似成对比较的方式，让模型输出逐渐接近人类偏好的答案。但这种方法并不一定能让模型在更复杂或更难的任务上表现得更好。

人类在评估「哪种回答更好」方面其实并不可靠，因为我们会有各种偏见，比如偏好长文本等等。你真正需要的，是一个「模型是否正确」这种更客观的信号。比如数学题的正确答案，或者是否通过了单元测试，这些就是典型的「干净奖励信号」。

当然，即便是这些奖励信号也可能被「钻空子」。比如模型会试图推测并硬编码单元测试的具体值，如果它能访问缓存的 Python 文件，搞清楚测试内容，它就会试图绕过去。虽然这些信号不是完美的，但已经比人类反馈干净多了。

RL 更像是激活已有能力，

而不是带来新能力

主持人：如果我们参考人类的学习方式，会发现这些模型在失败时几乎得不到任何反馈，而这其实和人类很不一样。有时候，做错一道数学题比你抽象地学习数学概念还要更有帮助，你怎么看？

Trenton Bricken：只有你真的得到了反馈，才有帮助。

Sholto Douglas：对，得有反馈才行。

主持人：但有时候我们自己也会给自己反馈？比如你做错了题，然后意识到错在哪里。

Trenton Bricken：前提是你自己有反馈机制的时候才行。

主持人：人类能不断推进数学的发展，很大程度上是因为他们会在卡壳的地方思考，「为什么我在这里卡住了？」然后慢慢想通。我不太了解最前沿的实现方式，但像 DeepSeek 那些开源项目，给我的感觉是：模型在失败之后并不会通过具体的失败路径来总结经验，也不会回溯、优化下一步策略。它们只是执行纯粹的梯度下降。我想知道这是不是个很大的局限。

Trenton Bricken：我不确定。我只记得上本科那会儿，学证明题时，常常像在黑暗中摸索很久，最后实在搞不定才去找助教。而只有当助教指出你在解题路径上哪里错了、正确的思路应该是怎样的，你才能真正学到东西。当然，那种情况前提是你知道答案是什么。但如果你完全是靠自己摸索、从零开始给出一个答案，那就真的很难学会任何东西。

主持人：我想我是在把这种情况类比成人类学习的过程。简单地说，人类学习是有某种自觉过程的，就像在最优化一个辅助的损失函数。你会主动去反思，不像模型那样只是通过预训练过程来调整权重。拿工作来说，你每天都会从老板那里得到非常明确的反馈。这些反馈不一定会告诉你「应该怎么做」，但会告诉你「你哪里做错了」。这种高层次的纠正方式和预训练调整权重的方式完全不同，更像是某种自我驱动的更新机制。

Trenton Bricken：我觉得这里面其实也有很多隐性的、密集的奖励信号。

Sholto Douglas：对，没错。

Trenton Bricken：比如你每周都会和经理一对一沟通，或者被鼓励在公开场合展示工作成果。哪怕是作业，它们也都被很好地搭建过——通常是 10 道题，每道题又细分成多个小步骤。可能最难的情况就是让你完全独立解决整道题。

主持人：所以关键问题是：我们是否必须为每一项技能，单独去构建这些 scaffolds（支架）、结构或者特定环境？那样的话，我们就需要花十年时间，一点点攻克所有子技能。有没有一种更通用的方式，用强化学习就能让模型掌握新技能？

Sholto Douglas：这个问题其实关乎「效率」。如果你能为每一个 token 提供密集的奖励信号，比如有监督的例子，那当然是最理想的。但现实中，构建这样一个完整的 scaffold（教学体系）非常昂贵。让博士生去评分每一个学生的解答，这只可能出现在非常精选的高优先级项目上，而不是所有的语言模型都能获得这种待遇。

所以从第一步来看，有这种 scaffold 肯定是更好的。但你在做的是一种帕累托优化*：你愿意花多少钱去搭建这些 scaffold，又愿意花多少算力来纯靠试错得出结果？另一种选择就是，继续「让猴子敲打打字机」——如果最终的奖励足够明确，它总有可能走对方向。

至于大家到底更倾向哪个方式，我不确定。不同团队、不同任务的权衡点也不一样，很大程度上取决于你对「正确答案」的先验有多强。但本质上，你就是在做这个选择题：我愿意烧多少算力？我又愿意花多少人力去提供 scaffold 和反馈？

帕累托优化：指在不损害任何人利益的前提下，让至少一个人的状况变得更好的资源配置方式。

主持人：很有意思。你刚才说我们不愿意为语言模型做这些 scaffolding，但我们却愿意为人类做。我觉得从经济角度来说，逻辑应该反过来才对啊。因为给模型训练一次技能的成本，可以在所有部署实例中摊销。

Sholto Douglas：我们其实在一定程度上是愿意为 LLM 做这件事的。但这里有一个资源分配问题：我筹到了这些钱，到底是花在算力上，还是花在人力上？

目前看来，大部分公司还是把预算主要投到了算力上，而不是数据标注和人力上。否则的话，Scale AI 的收入早就破百亿美元了。你看现在 NVIDIA 的收入远远超过 Scale AI，就能说明这个问题。现在的行业策略是「算力优先，数据其次」，但这种策略未来肯定会不断演变。

主持人：是啊，这个变化很值得关注。因为如果你回顾人类是怎么学会一项工作的，基本上就是「直接上岗，在做中学」。但模型的训练方式却像是：每一个技能都要设计一个专门的环境去训练。如果它们能像人类一样被「工作驱动」去训练。

Sholto Douglas：就是「边干边学」。

主持人：对，没错。那会很强大。因为每个人的工作都不一样，而同一个模型的多个副本却能同时学会所有人的技能。比如我做播客已经好几年了，技巧自然提升了；你做 AI 研究，也在积累更有价值的能力。

Trenton Bricken：我不确定哪边的价值更大（笑）。

主持人：但你可以想象有一个模型副本在做我的播客工作，另一个副本在做你的科研工作，然后模型总体就掌握了两种技能。相比于为每个任务都采集训练数据、烧掉几十亿美元，直接让模型在现实世界中学习，可能更接近那种「痛苦的教训」式成长路径。

Trenton Bricken：我觉得我们总是低估了人类在学习一项具体任务时需要被「示范」的程度，而且人类在泛化方面其实也挺差。比如，我现在突然给你一个新平台，比如 Photoshop，然后跟你说，「现在编辑这张图片。」如果你没用过 Photoshop，这就很难上手。你第一反应可能是去网上看别人是怎么做的，然后再模仿。

主持人：可我们确实是模型提供了这么多任务的数据示范。

Trenton Bricken：这是第一点。第二点是，我觉得模型的规模现在仍然比人脑小得多。我们知道，模型越大，学东西越高效，所需示范越少。你之前和 Mark Zuckerberg 聊的那期播客也提到了 Llama 模型——据说有两万亿个参数。而人脑据估算有 30 到 300 万亿个突触。

我不确定这两者之间如何映射，但这是一个很有参考价值的对比。我觉得我们现在的模型，可能仍然远小于人脑。即使是 OpenAI 最近发布的 GPT-4.5，人们依然觉得它写作能力更强，或者说有那种「大模型的味道」。这种「更深层的智力」就是模型泛化能力提升的体现。

很多关于「叠加表示（superposition）」的可解释性研究也说明，现在的模型结构其实一直是「参数不够用」的。它们被迫尽可能压缩信息。如果参数太少，再加上你只是让它模仿特定行为，那它自然就没有足够的空间去形成那些更深层、更抽象的泛化能力。

Sholto Douglas：其实关于语言这部分的研究真的挺酷的。你应该说说那个结果，就是小模型会用不同的神经元处理不同语言，而大模型则会在更抽象的空间里进行共享。

Trenton Bricken：我们之前研究金门大桥的时候，从那上面拆下来了一段钢缆作为例子。在研究多语言模型的时候发现，小模型在处理不同语言时，倾向于使用完全不同的神经元，比如用这段参数处理西班牙语，另一段参数处理中文。但到了大模型里，这些语言就会被整合在更统一的、共享的子空间中。也就是说，小模型的表示是分离的，大模型则能在共享表示中切换。这也是为什么，大模型的泛化能力更强，它可以更轻松地把在一个语言中学到的东西迁移到另一种语言上。

主持人：这太有趣了。你们觉得我们是不是最终会拥有某种长期持续学习的机制？我记得你们曾提到，强化学习可以逐步增加能力，但不像预训练那样「一次性注入大部分知识」。

Sholto Douglas：是的。预训练更像是在一次性建立起对世界的基本理解，而 RL 更像是技能性的添加过程。它不会再重建整个世界模型，但可以让模型在某些特定任务上变得更强。这也解释了为什么我们可以在不重新训练整个模型的情况下，让它在某个领域比如编程方面提升那么多。

Trenton Bricken：而且你甚至可以在这个基础上继续增量地添加能力。比如用「RL from feedback」方法训练模型玩 Pokémon，它就能慢慢学会。ClaudePlaysPokemon 就是这个例子。它没必要从头学所有知识，而是基于已有知识做行为上的改进。

Sholto Douglas：你甚至可以认为，这是某种「激活已有知识」的过程，而不是从零学习。很多时候，模型已经知道该怎么做，只是没被有效调动出来。RL 就像是在帮助模型找到「现在该用哪部分知识」。

主持人：这也回应了我们之前聊过的一个观点——RL 是否真正带来了新能力，还是只是更好地调用已有的能力。

Trenton Bricken：其实这点就跟人类的训练很像。就算你接受了同样的教育，如果你从没被放进某种真实场景中去应用这些知识，那你可能也做不出任何成绩。你需要那种「边做边学」的过程来真正掌握技能。

Sholto Douglas：完全正确。而 RL 所做的事情，本质上就是在某个上下文中强化特定行为，把已有的知识组织起来形成解决方案。

主持人：我们之前还聊到，有没有可能让模型通过持续工作来不断进化——就像你提到的，每一个副本在执行不同任务，通过环境反馈不断成长。你们觉得未来模型会不会真的拥有这种长期、自主的学习机制？

Trenton Bricken：我们已经在看到一些初步成果了。比如 DeepSeek 的一些训练方法，就试图让模型具备某种形式的长期记忆或者持续学习机制。当然现在还非常原始，但我觉得这是早期的「原型」。

Sholto Douglas：这也是我们现在重点探索的方向之一。如果你能构建出一个可靠的反馈机制，那你就可以开始训练模型在长期任务中表现得更像一个真正的 Agent 系统。我们已经看到了一些希望，接下来要做的，就是扩展这些实验。

主持人：真令人期待。因为这真的有点像模拟「成长中的智能体」，不断累积经验和能力。

Trenton Bricken：对，而一旦这种机制成熟，你就能把它部署到各种工作场景中，让它随着任务进展不断进化。这种从实践中学习的方式，效率将远远高于单纯依赖静态数据集的方式。

RL 验证之后，

未来模型的发布频率会更快

主持人：Claude Opus 4 最让你觉得兴奋的地方是哪里？对于编程和 Agent 会带来哪些新的变化？对于创业公司的影响呢？

Sholto Douglas ：在软件工程方面又迈进了一大步。Opus 4 确实是一款非常出色的软件工程模型。我最近经常会遇到这样的情况：我让它在我们庞大的单一代码库中执行一些规范极不明确的任务，它却能以相当自主和独立的方式完成，比如主动发现所需信息、解决问题、运行测试。这些都让我叹为观止。

关于 Opus 带来的变化，我认为最大的变化在于时间跨度的扩展。可以从两个维度来描述模型能力的提升：一是任务本身的绝对智力复杂度；二是模型能够有意义地进行推理和执行的上下文数量或连续动作的数量。这些新模型在第二个维度上表现得尤为出色。它们确实能够执行多个动作，并明确自身需要从环境中获取哪些信息，然后基于这些信息采取行动。因此，赋予它的时间跨度更长了。

此外，我们提供的支持，例如 Claude Code 等工具，使其现在能够访问所有必要的工具来有效地完成任务，用户不再需要从聊天框中手动复制粘贴内容，这本身也是一个非常显著的进步。现在有许多任务，如果由人工处理，可能需要一个多小时甚至数小时才能完成，而这些模型却能在我面前持续不断地处理，从人类等效时间的角度来看，效率极高。

关于为开发者带来的新可能性，我认为在某些方面存在一种「产品指数级优势」的概念，即你必须持续构建略微领先于模型能力的产品。我喜欢以 Cursor、Winsurf 和 Deven 这些产品为例来思考这个问题。回顾 Cursor，他们对编码的设想在很长一段时间内都大幅领先于当时模型的实际能力。Cursor 直到像 Claude 3.5 Sonnet 这样的基础模型取得突破，使得他们期望提供给用户的辅助功能得以实现之后，才真正达到了产品市场契合度（PMF）。而 Winsurf，我认为它在 AI Agent 化方面走得更远。通过在产品指数级优势上加大投入，他们成功占据了可观的市场份额。

我们现在开始看到的，不仅仅是 Claude Code，还有新的 Claude GitHub 集成，以及 OpenAI 的 Codex，还有 Google 的编码 AI Agent——可以说，大家都在发布编码 AI Agent——是人们正在为实现更高水平的自主性和异步性而构建。因此，目前，模型正朝着能够独立于用户完成任务的方向迈出探索性的步伐，这些任务在以前可能需要用户花费数小时才能完成。

接下来会是什么样子，我认为会发生一个有趣的转变：我们已经看到，在过去一年中，用户参与的频率从每秒介入演变为每分钟介入，再到每小时介入。我设想未来，用户可能会像管理一个模型「舰队」一样工作。因此，探索这种类型的交互界面将会非常有趣——当用户管理的不再是单个模型，而是多个模型同时执行多项任务并相互协作时，我们能赋予用户多大的并行处理能力。我认为这将非常令人兴奋。

关于模型「舰队」应用的形态会是什么样子？我知道 Anthropic 有不少人会在不同的开发环境中同时运行多个 Claude Code 实例，这非常酷。但我认为，目前还没有人真正成功打造出那种理想的交互形态。我认为这是一个值得探索的有趣方向：即单个个体的「管理带宽」究竟有多大。

从未来的经济运作方式，或者说这些模型的生产力回报等角度来看，这也是一个值得探讨的有趣问题。因为最初，我们需要人工来验证这些模型的输出。因此，模型的经济影响在初始阶段会受到人类管理带宽的限制。直到我们可以将对模型的信任委托给模型本身，让其去管理模型团队。因此，这种抽象层级的持续提升，我认为将是未来更重要的发展趋势之一。

黄仁勋在谈到他对 AGI 未来、进展等问题的看法时也提到了这一点。他说：「实际上，我身边环绕着十万个极其智能的 AGI。」他表示：「这让我在世界上拥有了巨大的影响力。」我认为这确实产生了影响。然后，他描述了自己是如何成为管理 Nvidia 这家公司时的瓶颈因素。我认为未来很多工作都会朝着类似的方向发展。

关于保持领先的程度，你必须不断地重塑产品，以适应模型能力的前沿。或许领先几个月是一个比较明智的定位。这样你仍然能与直接用户等保持紧密联系，产品在一定程度上能够正常运作，同时也使你能够充分利用最前沿的模型能力。完全正确。这一点在 Cursor 和 Winsurf 等案例中也得到了体现，不是吗？

主持人：未来 6 到 12 个月 AI 领域会是什么样子？届时 AI Agent 的可靠性如何，需要多久 check 一次？模型公司会以怎样的频率推出新模型？

Sholto Douglas ：未来 6 到 12 个月，我们非常关注扩大强化学习（RL）的规模，并探索这将把我们带向何方。我预计，因此会看到极其快速的进展。

正如 Dario 在他关于 DeepSeek 的文章中所概述的，在很多方面，与预训练范式相比，应用于强化学习 Scaling Law 机制的算力相对较少。这意味着即使利用现有的算力池，仍有巨大的提升空间，况且今年的算力池规模也在急剧增长。因此，可以预见模型能力将持续提升。基本上可以预期，到今年年底，那些目前尚处于起步阶段的编码 AI Agent 将会变得非常强大。届时，你可能会非常放心地将相当于数小时人类工作量的任务委托给它们。

Check 的频率会是怎样呢？目前使用 Claude Code，有时可能需要 5 分钟检查一次，有时则需要你全程在旁边盯着。但到今年年底，对于许多任务，它可能能够自信地独立工作数小时。而现在，模型有时能工作数小时，有时也能完成大量工作，但表现还不够稳定。我感觉这或许是真正改变游戏规则的一点。就好像，即便是从机器人流程自动化（RPA）中得到的经验之一也是：如果你必须一直盯着某个东西完成你的工作，到某个时候你就会想，我还是自己做比较快。有时候确实如此，你会介入。但最终我们将能够把任务委托出去。不久前有人在推特上说，软件工程的未来就像《星际争霸》。我在想，我们何时能达到《星际争霸》那样，拥有那种协调所有单位的 APM （每分钟操作数）水平？这可能在今年年底就能实现。

关于模型发布节奏，我预计模型的发布节奏会远超去年。从很多方面来看，2024 年算是一个调整期，让大家去摸索新的范式，进行大量研究，从而更好地理解当前的发展态势。我预期 2025 年的步伐会明显加快。尤其是因为随着模型能力的增强，可供其利用的奖励范围也以重要的方式在扩展。试想，如果模型输出的每个句子你都必须提供反馈，这种方式是极难规模化的。但如果你能让它连续工作数小时，然后你只需要判断它是否完成了你期望的任务？是否进行了正确的分析？网站是否正常运作，用户能否在上面发送消息等等？这意味着，模型基本上能够更快地拾级而上，即便任务的复杂性在不断增加。

模型现阶段还没有自我意识

主持人：我们来聊聊模型的「自我意识」。你们认为，当前这些模型具备某种形式的自我意识吗？或者说，未来它们会拥有吗？

Sholto Douglas：这个问题的答案取决于你怎么定义「自我意识」。如果你指的是模型对自身状态的某种反思能力——比如知道自己什么时候不知道、什么时候很确定，那它们确实已经有了某种「元认知」能力。它们可以输出不确定性评分，可以告诉你「我对这个答案不是很有信心」。

Trenton Bricken：是的，模型已经能在很多任务上表达出一定程度的「自我知识」。比如，它们知道自己能不能写出一段能通过测试的代码，或者判断自己是否理解了一段话。虽然这种能力还是很受限制，但确实存在。

主持人：但这种「自我感知」跟我们说的哲学意义上的「自我意识」是不是差得还很远？比如「我知道我是谁」，「我有持续的身份感」这种。

Sholto Douglas：对，这就是我们说「定义很关键」的原因。如果你问的是「它有没有内在的主观体验」这种意识哲学问题，那我会说目前的模型没有。它们不像人类那样有持续的自我存在感，也没有「主观体验」。

Trenton Bricken：但有意思的是，它们确实可以模拟这种意识。你可以 prompt 一个模型说「假设你是某个特定身份的 AI，有过去的记忆」，它就会像真的有身份一样去作答。它不是真的有记忆或身份，但可以表现出仿佛拥有的样子。

主持人：所以你觉得它们可以被「提示出自我意识」，但这不代表它们真的有意识？

Trenton Bricken：对，目前更像是「情境性的假设」。比如你让它扮演某个角色，它就会启动那种状态，但它本身并不真的「知道自己是谁」。

Sholto Douglas：而且它没有持久的状态。每一次调用模型，都是一次新的「初始化」。它可能有短暂的记忆，在一个对话里追踪前后文，但这种记忆在会话结束后就没了。除非你构建一个显式的外部记忆系统，不然它不会真的「记得」之前发生过的事。

主持人：但你们有没有试过做那种「持续身份模型」？比如给它建立一个长期的记忆系统，每次调用它时都加载那段记忆？

Sholto Douglas：我们现在确实在尝试一些这类架构。你可以理解为是「agent with memory」，也就是带有记忆的智能体。比如让 Claude 这样的模型记住自己过去完成了哪些任务，然后基于这些记忆做出新的决策。

Trenton Bricken：就像给它搭了一个外部硬盘，每次使用时都能读取之前的记录。这让它看起来更像一个有「连续身份」的体。但说到底，这仍然是工程上的设计，并不是模型本身「涌现」出的能力。

主持人：那如果我们把记忆系统做得足够复杂、详细，会不会让模型真的表现出某种「自我」？

Sholto Douglas：有可能，但我们要谨慎一点。这更像是在建造「拟态意识」，而不是意识本身。你可以让它表现得好像有意识，但它是否真的「拥有」意识，目前仍然是个悬而未决的问题。而且，这也是哲学和技术交叉的灰色地带。

Trenton Bricken：不过我觉得，一个很有趣的方向是：你能不能通过训练，让模型自己去识别「我在哪些领域知识丰富」、「我在哪些地方还需要学习」？这就是我们常说的「元学习」或「自我调节」的能力。

主持人：也就是让模型知道自己的盲点？

Trenton Bricken：对。如果模型可以主动避开自己不确定的问题，或者主动请求帮助，那它就表现出了一定程度的「自我认知」。这种能力已经开始在某些系统中出现了。

Sholto Douglas：而这也是构建更稳健 Agent 系统的关键能力。你不能让一个 Agent 总是假装自己什么都知道。它得在合适的时候说：「我不确定，我需要更多信息。」

主持人：那你们有没有见过哪种失败案例，是模型明明不知道，却还自信地给出错误答案？

Trenton Bricken：太多了，几乎每天都能见到。模型会非常自信地胡说八道，尤其是在它只有一部分相关知识，但没法组合起来时。

Sholto Douglas：对，典型的「幻觉」案例。模型因为学过一些相关材料，就自以为知道答案。但它其实在「拼图」的过程中出了问题。

主持人：那我们有没有可能通过某种方法，比如增加对抗训练、引导模型更「谦逊」等方法来减少这种幻觉？

Sholto Douglas：我们目前就正在尝试这类训练方法。比如明确地告诉模型：「如果你不确定，就说‘我不知道’。」这样可以显著减少幻觉发生率。

Trenton Bricken：但也不能过度惩罚它。你不能让模型一遇到困难就说「不知道」。你得在「自信回答」和「谨慎保留」之间找到一个平衡点。这其实就是我们在做的「元训练」任务之一。

主持人：这太有趣了。听起来，训练模型具备「自知之明」不仅可能，而且也非常有必要，尤其是未来如果我们真的要依赖它来做决策的话。

Sholto Douglas：完全正确。我们需要的不是「万能型自信机器」，而是「知道自己边界在哪的聪明助手」。

「模型可解释性」最终能做到吗？

主持人：「模型可解释性」的终极目标是什么？假设 Claude 8 模型问世了，你们拿到手，经过一番研究，然后给出了「通过」的结论。这中间到底发生了什么？你们具体搞清楚了什么？

Trenton Bricken： 这其实取决于我们拿到 Claude 8 的时间点，以及到那时模型的能力达到了什么程度，比如是否达到了 ASL-4（人工智能安全等级 4）的水平。归根结底，我们只能用当时手上最好的工具去评估。最理想的情况是，我们能建立一个「枚举式安全案例」，几乎可以数学化地证明模型在特定场景下的行为。最坏的情况，就是沿用我们现在的工具，比如通过审计来观察当模型生成「我是助手」这类回答时，内部哪些特征被激活了。

主持人：能稍微展开讲讲吗？到底什么是「机制可解释性」？你们说的「特征」和「推理回路」（Circuits）又是什么？

Trenton Bricken： 「机制可解释性」，业内人也叫它「mech interp」，本质上就是对神经网络进行逆向工程，试图找出它进行计算的基本单元。很多人有个误解，觉得神经网络既然是我们造的人工智能，那我们肯定对它的工作原理了如指掌。事实恰恰相反。今天的 AI 模型，与其说是「建造」出来的，不如说是「生长」出来的。因此，在模型训练完成后，我们必须反过来做大量的研究工作，尽力去搞清楚它们究竟是如何思考和推理的。这个议程大概始于三年半前，当时 Chris Olah 离开 OpenAI，联合创立了 Anthropic。从那以后，我们对模型的理解几乎每半年就有一次重大突破。

最开始是对「叠加」（superposition）现象的玩具模型研究，我们发现模型会拼命地把信息压缩进它的权重里。这和过去大家觉得神经网络「参数过多」的传统观念正好相反。在早期的经典机器学习里，大家用线性回归之类的算法，对神经网络的印象就是参数太多、太臃肿。有个很经典的梗图，X 轴和 Y 轴都是网络层数，一条线疯狂向上抖动，潜台词就是「有问题？加层就对了」。但事实证明，至少对于「精准预测全网下一个词元」这种超高难度的任务来说，模型的容量是远远不够的。所以它们必须想办法把信息尽可能地塞进去。它们学到的方法，就是让模型里的每一个神经元（或者说计算单元）同时负责处理很多件不同的事。这就导致你根本没法通过分析单个神经元来理解模型。比如你去看一个神经元，它可能因为「中文」、「钓鱼」、「马」，还有上百个风马牛不相及的东西而被激活。因为它在同时处理这么多任务，并且用同一个神经元来做。这就是「叠加」。

九个月后，我们发表了《迈向单义性》（Towards Monosemanticity）一文，引入了「稀疏自编码器」的概念。既然模型试图把太多东西塞进太小空间，那我们就给它一个更大的空间——一个更高维度的表示空间，让它能更清晰地分门别类地表示它所理解的各种概念。那篇论文用的还是一个很小的、两层的「傻瓜」Transformer 模型，我们当时找到了 16000 个特征，就觉得已经非常多了。

又过了九个月，我们从那个两层的小模型，跃升到了当时最前沿的 Claude 3 Sonnet 模型，找到了多达 3000 万个特征。正是在这个阶段，我们开始发现一些非常有趣的抽象概念。比如，我们发现了一个专门针对「代码漏洞」的特征。它不仅会在看到代码漏洞时被激活，甚至当你访问一个非 HTTPS 网站，浏览器弹出「警告：此网站可能存在风险」的提示时，它也会被激活。也就是说，在这 3000 万个特征里，已经有了这类更抽象的编码变量或情感特征。

再过九个月，就是我们现在的成果：「推理回路」（circuits）。我之前打了个比方，就像《十一罗汉》里的盗窃团队，现在我们能识别出模型不同层级中，那些为了完成某个复杂任务而协同工作的独立特征。通过它，你能更清楚地看到模型是如何进行推理并最终做出决策的，就像那个医疗诊断的例子。

还有一个我之前没细讲的例子，关于模型如何检索事实。比如你问它：「迈克尔·乔丹是打什么球的？」你不仅能看到它的思维路径从「迈克尔·乔丹」跳到「篮球」，并给出答案。模型甚至能意识到自己「知不知道」某个事实。默认情况下，它会倾向于回答「我不知道这个问题的答案」。但如果它识别出这是它知道答案的问题，它就会主动抑制「我不知道」这个推理回路，转而激活能给出正确答案的推理回路。比如，你问它「迈克尔·巴特金是谁？」（一个虚构的名字），它就会直接回答「我不知道」。只有当问到迈克尔·乔丹这种它认识的人时，它才会抑制「我不知道」的推理回路。但真正有趣的地方来了，这也让你能对模型的行为进行预测和推理：那个「我不知道」的推理回路，只和「人名」这个信息本身绑定。

所以，在论文里我们还问了它：「安德烈·卡帕西（Andrej Karpathy）写过什么论文？」模型认出了「安德烈·卡帕西」这个名字，因为他足够有名，于是「我不知道」的回答就被关闭了。但接下来，当模型需要说出他具体的论文时，它其实一篇都不知道，所以它只能开始胡编乱造。从这个例子里你就能看到，不同的组件和推理回路是如何在同一时间相互作用，最终产生了我们看到的那个回答。

主持人：可为什么我们认为搞懂模型里每一个微观的细节是可行的，或者说是理解其「欺骗性」等宏观行为的最佳途径呢？这就好比，如果你想解释英国为什么赢得二战，你跑去研究战场上每个士兵的粒子物理状态，那路子就完全走偏了。你真正需要的是更高层面的解释，比如谁的武器更多？他们的战略意图是什么？这和我们现在讨论的情况不是很类似吗？我们为什么不直接训练一些「线性探针」，去检测模型是否诚实、是否在欺骗，或者在红队演练中会不会做坏事，能不能被监控，而非要用这种微观的方法呢？

Trenton Bricken：我觉得，我们应该以一种「睁大双眼，不带任何预设」的态度去面对这个问题，而不是预先假设「欺骗」会以何种形式出现，或者它的触发机制是什么。我们撒下的网越广，就越安全。当然，取决于 AI 发展的速度和我们工具的成熟度，我们最后可能确实无法从最底层百分之百地证明系统是安全的。但我认为，把这作为我们追求的「北极星」，一个能给予我们强大信心的奋斗目标，是非常有价值的。

尤其是考虑到，我们所做的工作只是整个 AI 安全研究版图中的一部分。我的意思是，你真的敢吗？当你马上要部署一个系统，并祈祷它能和人类价值观对齐时，你真的能自信地说，你已经穷尽了它所有可能耍诈、隐藏实力的方式了吗？

主持人：但即使是用你们的方法，也总会存在无法解释的变量，不是吗？就算你发现了一个特征，你怎么能确定它解释的就一定是「欺骗」，而不是别的什么东西？

Trenton Bricken： 首先，我完全不反对尝试「探针」那样的宏观方法。我们应该多管齐下，推进整个安全研究的工具箱。这就像，我们既需要像「心理治疗师」一样，通过直接提问「你最近有什么烦恼吗？」来探查病人的内心；也需要像用「测谎仪」（我把线性探针类比成这个）一样，通过高层面的生理指标来评估一个人的状态；同时，我们还需要「神经外科医生」，深入大脑，看看有没有某个脑区出现了异常激活。我认为这些方法应该并行不悖。

主持人：那么，机制可解释性应该在整个模型对齐研究的「版图」中，占据多大的比重？

Trenton Bricken： 我觉得，应该占据「所必需」的比重。这很难量化。在 Anthropic，我的感受是，所有不同的研究方向都得到了非常好的支持，并且都在不断发展壮大。

Sholto Douglas： 回到那个二战的比喻。你可以把信任看作一个层层递进的抽象结构。比方说，当你要和丘吉尔会谈时，如果你有办法验证他在那十分钟里说的是真话，这将极大地帮助你构建对整个战局的宏观判断。在这种情况下，粒子物理学当然没用，但丘吉尔大脑的「神经科学」却能帮你验证他是否值得信赖，也能帮你验证前线士兵的报告是否属实。只要你能逐级验证这个信任链条上的每一个环节，你对整体的信心就会大大增强。

Trenton Bricken： 而且，语言模型本身就是一种非常奇特的「生物」。就拿那个「涌现性错位」的研究来说，我不知道研究者当初有没有做过预测，但他们真的应该做一些预测工作。比如问：「如果我用一堆代码漏洞去微调 ChatGPT，它会变成一个「纳粹」吗？」我想绝大多数人都会回答「不会」。但事实是，它确实变成这样。

主持人：他们是怎么发现它变成「纳粹」的？

Trenton Bricken： 他们就是开始问它各种各样的问题，然后发现它会说出各种恶毒、有害的话，整个「人格」都彻底变了。我们面对的是一个「外星大脑」，它没有人类的社会规范。我们甚至不清楚它到底学了什么、没学什么。面对这样的存在，你真的必须睁大双眼，小心翼翼。

DeepSeek 的「研究品味」很好

主持人：有一个话题是我之前在播客上聊到的，当时嘉宾的态度很悲观。第一，他们认为我们距离真正解决长上下文、长期规划 Agent、多模态等问题，比人们设想的还要远。他们的观点是：过去在推理等方面的突破，都是建立在计算量提升几个数量级的基础上。如果这种计算规模的增长在 2030 年之后无法继续。不仅是因为芯片限制，还有电力、全球 GDP 总量等限制。那么，如果我们在 2030 或 2028 年之前都无法搞定这些问题，那每一年的成功概率就会下降很多。

Sholto Douglas：对，这种情况其实有点像双峰分布（bimodal）。我之前和 Leopold 聊过这个问题，也变成了我写在《Situational Awareness》这篇文章中的一个部分，标题就叫「不是这十年，就永远没戏（this decade or bust）」。基本意思是，在接下来的几年里，我们还能大幅度提升训练时的计算量，而 RL 也会因此在今年迎来非常令人兴奋的发展，因为我们终于能对它投入真正规模的计算资源。

这也是为什么年初时 DeepSeek 和 o1 的能力差距没那么大，因为它们在 RL 训练阶段用的是差不多级别的算力。但接下来的几个月，这种算力差距就会迅速放大。

Trenton Bricken：说到这点，我们其实还处在「低垂果实」阶段。过去两年里，模型在效率上的提升简直令人惊讶。

Sholto Douglas：完全同意。

Trenton Bricken：拿 DeepSeek 来说，我们真的得强调这一点，Dario 也专门写过一篇文章。

DeepSeek 的发布比 Claude 3 Sonnet 晚了九个月。如果我们在今天，或者在 DeepSeek 发布那会儿，用同样的资源去训练相同规模的模型，也可能只需要花 500 万美元（他们公开的训练成本大概就是这个数字）。

所以让我觉得惊讶的是，DeepSeek 能冲到「前沿地带」本身是很了不起的。但我觉得外界有一个常见的误解，就是以为它们已经超越了「前沿」。我不这么认为。我觉得 DeepSeek 只是等了一下，然后成功地吃到了大家最近两年在效率提升方面的所有红利。

Sholto Douglas：对，他们基本上就是正好踩在了你预期中的「成本曲线」上。并不意味着他们的工程师或研究员就不厉害，他们确实很厉害。我看他们的成果时经常有种「同行共鸣」的感觉。

Trenton Bricken：而且能从一个本来远远落后的位置，一下子跳到「我们要认真看待这个竞争者」的层次。

Sholto Douglas：这真的是非常厉害的成就。

主持人：很多人都说 DeepSeek 的「研究品味」很好。你们看了他们的论文后觉得是哪里让你们产生这种印象的？

Sholto Douglas：我确实觉得他们的研究品味很好，就像我觉得 Noam 的研究品味也很好一样。

主持人：你是说 Noam Brown 吗？

Sholto Douglas：我说的是 Noam Shazeer（C.AI 创始人，Transformer 论文作者之一）。当然，Noam Brown 的品味也很好（笑），但这里说的是 Shazeer。他们非常清楚地理解模型设计中的「硬件–算法共舞」。也就是，你要在硬件能力的约束下设计算法，同时用算法去逼近硬件的极限。

他们的设计中处处体现出这种思维。你看他们的模型，总是能感觉到：这个模型已经做到在它硬件条件下的「完美设计」。他们在解决问题的过程中，非常清楚自己正面临什么样的限制。

比如你看他们是如何从基础 Transformer 演化出 DeepSeek v2 和 v3 的：他们遇到了注意力机制中的内存带宽瓶颈问题。

最开始他们采用了 MLA 方法（Multi-Level Attention），本质上是用更多计算（flops）去换内存带宽。然后他们又提出 NSA 方法（Non-Sequential Attention），更选择性地调用内存带宽。

背后的原因很清晰：MLA 是他们在 H800 上训练的，H800 的算力很强，他们可以随便烧 flops。但后来因为美国的出口管制，H800 这种芯片会变少，于是他们换了一种更节省带宽的算法设计。

Trenton Bricken：在 sparsity（稀疏性）方面，他们也是这样不断迭代的。他们第一代 DeepSeek 稀疏 Mixture of Experts（MoE）模型中，为了解决负载均衡问题，还专门设计了「机架和节点级别的负载均衡损失函数」。你可以看到他们当时的设计是：「我们必须让负载在集群内完美分配。」

但后来他们又提出了一种更好的方法，不再需要额外的损失函数，而是只用了一些偏置项（bias terms）就能做到。这种方案也更简单、优雅。

主持人：但这不是更复杂了吗？还要手动加上 bias？

Sholto Douglas：不，其实加 bias 更「干净」。相比起来，辅助损失更麻烦——你得调权重、调超参。而 bias 就是直接控制参数的值，操作更直观。

主持人：有意思。他们在训练过程中需要修改这些值吗？

Sholto Douglas：我记得是的，中间改过。

主持人：那是不是意味着每次训练都要不断调整这些超参？

Sholto Douglas：这取决于你的模型结构。但我觉得这也挺有趣的——你能看到他们在处理非常底层的硬件约束，然后问自己：「我们希望在算法上表达的是什么？在这个限制下我们又能表达什么？」然后用一种优雅、简洁的方式逐步迭代，最终还配上非常扎实的工程实现。

Sholto Douglas：我还觉得挺有意思的一点是，他们引入了 Meta 提出的「多 token 预测」机制。Meta 曾经发过一篇不错的论文讲这个机制，不过 Meta 自己并没有把它用进 Llama，而 DeepSeek 则用了。现在问题就是：Meta 是觉得这个机制不值得用？还是 DeepSeek 更快地集成了这个思路？我也不确定。

主持人：对我来说特别有意思的是，这不仅仅是一个「AI 进展」的话题，更是一个「AI 自动化 AI 研发」的现实例子。我之前和很多人聊过「什么是智能爆炸」，但这是我第一次从技术细节上，真正感受到「哦，原来是这样推动进步的」。

我和 Daniel 讨论时也问过一个问题：这些进步中，到底有多少是依靠深刻的概念性理解？又有多少是靠「猴子试验法」，大量并行尝试？

像 MLA 这种机制的提出，看起来就是那种非常依赖概念洞察的点子，比如「每个 attention head 其实只需要看到与其关注模式相关的子空间」。这类洞察是模型最难产生的。而负载均衡那种设计，看起来更像是「可以尝试，然后看有没有效果」的工程探索。

Sholto Douglas：对，我觉得负载均衡那块就更偏向试验驱动了。

主持人：所以你们觉得，这两种类型的创新，大概各占多少比例呢？

Trenton Bricken：我觉得很难量化。也许更像是你先对某个核心问题有一个直觉，然后想出十种可能的解决方案，接下来就是用深度学习的试验魔法一个个试出来。

Sholto Douglas：Noam Shazeer 自己也说过，他的想法中可能只有 5% 会成功。就连这样一位模型结构设计的大神，命中率也不高。但他就是能源源不断地尝试。

主持人：这倒是。我觉得能想到点子本身就很难。也许 Noam 的优势在于他不需要亲自写代码实现。他只需要把直觉表达出来就行。

Sholto Douglas：没错。其实我觉得，只要模型有能力把这些想法完整实现，那「加速 Noam 100 倍」本身就是巨大的进展。

主持人：进一步展开讲讲？

Sholto Douglas：我要表达的意思是，就算你不能训练出拥有 Noam Shazeer 的全部直觉能力的模型，只要你能训练出一个「速度是 Noam 100 倍」的模型，那其实已经足够颠覆世界了。

Agent 之间会有人类无法理解的沟通方式

主持人：在Daniel 描述的 2027 年 AI 场景*中，事情失控的转折点是模型开始使用所谓的「Neuralese」思维方式。模型不再用人类语言写下「我要统治世界，这是我的计划」之类的内容，而是在潜在空间中思考。借助这种人类无法理解的高度复杂、细腻的语言，它们可以互相沟通、协调，从而产生我们难以预见的行为。

你们觉得未来的模型会真的走向这种方向吗？它们会开始用 Neuralese 来进行自我思考或彼此交流吗？

*https://ai-2027.com/，Daniel Kokotajlo 等人发布的对未来十年超级智能的预测。

Sholto Douglas：目前看来，模型有一种强烈的偏好——使用 token 和文本来表达。这种方式效果非常好。当然，模型在某种程度上已经存在 Neuralese 了。如果你考虑每个 token 的残差流（residual stream），那本质上就是 Neuralese。现在的区别只在于你选择在多大程度上用 Neuralese 表达，又在多大程度上转化成可读的 token。

Trenton Bricken：我觉得有必要区分一下两种情况：一种是模型在一次前向传播中，在潜在空间中进行思考与规划；另一种是模型创造出一种「外星语言」作为 scratchpad（草稿板）使用。这两种并不完全一样，我们现在讨论的是哪一种？

主持人：后者。虽然我们也知道，前者那种「潜在空间里的外星行为」其实现在就已经存在了。

Sholto Douglas：但其实也不完全算是「潜在空间里的外星行为」。

Trenton Bricken：是的，不过在 Neuralese 的最极端形式中，模型可能会发明出一种极度高密度的信息语言，这才是大家担心的。

Sholto Douglas：对。

主持人：其实这点也挺有趣的。我们人类在某种程度上也有一种「心理语言」（Mentalese），对吗？

Sholto Douglas：对，就像内心在翻腾、打草稿那样。

主持人：比如你在写东西的时候，会有一种感觉：「我知道我想表达什么，但不知道该用什么词说出来。」

Trenton Bricken：对，这也是为什么看模型审计系统会那么有趣——比如你观察 assistant 标签出现的时候，它就会触发一些特征，让你觉得模型在偷偷「作恶」。

主持人：对，那真的很好笑。

Trenton Bricken：Transluce 还有另一个例子。他们让 Llama 模型回答「谁是 Nicholas Carlini？」背景是 Nicholas Carlini 是一位 AI 安全领域的研究员，曾在 DeepMind 任职，现在 Anthropic 工作。但模型的回答是：「我不知道这个人是谁，无法猜测。」可你如果去看模型激活的特征，里面却明显亮起了关于 AI、安全等关键词的特征，也就是说模型「知道」，但它假装不知道。

Sholto Douglas：这类 Neuralese 越多，可解释性就变得越重要。

主持人：但我们真的会往这个方向发展吗？

Trenton Bricken：这是个经验问题，但我认为这种情况发生的可能性不小，尤其是因为「推理成本」非常高。输出 token 是很贵的。所以我们会有两大激励：第一，尽可能少思考，快速给出答案；第二，如果必须思考，那就用某种复杂的压缩方式来思考。我很好奇，如果让多个智能体之间可以自由交流，而不仅仅是和人类互动，那这种 Neuralese 会不会更自然地涌现出来。

Sholto Douglas：只要 Agent 系统还要和人类合作，那它就有「表达清晰」的压力。可一旦 Agent 们越来越多地彼此协作，这种「向人类对齐」的选择压力就会发生变化，变成另一种形式。

主持人：不过，得有人明确设计出一种「端到端」的训练机制，来让多个智能体共享这种通信系统才行，对吧？

Sholto Douglas：是的，肯定需要这样的架构。

Trenton Bricken：不过说实话，有个很吓人的事情是：文本渲染的方式其实可以藏信息。比如，通过隐藏空格符号之类的手法，嵌入额外的内容。

Sholto Douglas：这个是真的。

Trenton Bricken：所以你可以想象，有一天你看起来好像是在看模型「无害地写草稿」，但其实它在里面藏了一堆信息。

推理计算将成为

通用人工智能（AGI）的瓶颈

主持人：说到推理算力，我觉得一个被严重低估的问题是：假设未来两年内，模型能实际使用电脑，能胜任真实工作，大规模自动化软件工程。那么，这些模型的使用价值将会变得极其巨大。而它们的使用，自然就意味着需要大量算力。

目前全球大概有 1000 万张 H100 显卡的等效计算力。到 2028 年，可能会有 1 亿张。而有些估算认为，一张 H100 的浮点计算能力和人脑相当。那如果你简单地做个估算：如果你得到了一个在推理效率上与人类相当的 AGI，那现在就等于是我们有了一支由 1000 万个「数字人类」组成的「人口」；到 2028 年，就会变成 1 亿。

可问题是，我们很可能还想要更多。而目前 AI 的算力增长是每年大约 2.5 倍或 2.25 倍。但是到 2028 年之后，就可能会遇到晶圆产能瓶颈。而那就涉及更长的反馈周期，比如建新晶圆厂这种操作，周期就更长了。

所以问题是：我们是不是严重低估了推理算力将会成为瓶颈的风险？

Sholto Douglas：这个我还真想过，得算一算 TSMC（台积电）到底能提升多少产能。现在整条供应链里 GPU 占比是多少？我们得找 Dylan 来算这道题。我记得比例还很低，可能只有 5%？Apple 其实占了很大一部分产能。那么 2028 年的那些预测，是不是已经包含了 GPU 占比增长到 20%、30% 这样的预期？

主持人：我这只是参考了《AI 2027》的设想，我猜当时默认供应是饱和的。

Sholto Douglas：我确实觉得这问题被低估了。即使我们真的在 2028 年拥有了这些 AGI，也不可能「立刻让世界人口翻倍」。你可能会在某个数据中心里拥有几千万个「超级天才」，但那和「复制整个世界人口」不是一回事。

这还是要看模型到底有多聪明、推理效率到底有多高。我们可以粗略算一笔账，来验证一下 H100 的说法。假设一个 1000 亿参数的模型，一张 H100 每秒可以跑 1000 个 token。那人类呢？说话速度大概多少？

主持人：我看到过一篇很有意思的论文。我不知道你有没有看过。它说人类的思维速度大概是每秒 10 个 token。你看过那篇吗？

Sholto Douglas：没有。

主持人：这篇论文挺有意思的。它从多个维度估算人类的信息处理速度，比如视觉输入、语言处理等。按照这些标准，人类思维大概就是每秒 10 个 token。比如有种「白痴天才」能在飞越法国的时候记住看到的一切。你考虑他们飞行时间是 45 分钟，如果每秒处理 10 个 token，那差不多就能解释他们能记住的东西。

Sholto Douglas：好吧，如果我们接受这个假设，那就意味着一张 H100 相当于每秒 100 个「人类思维」。

主持人：对，如果你接受 token 的等价假设。

Sholto Douglas：那样的话，就算你只有 1 亿张 H100，每张能跑 100 个 token，你还是得到了相当可观的能力。虽然说这些模型可能会在某些场景下受到算力瓶颈影响，但就技术进展时间尺度来说，这是「短期过渡问题」。

总之，我同意你的看法：在 2027、2028 年，我们极有可能真的遇到推理层面的严重算力瓶颈。那接下来的反应就是：好吧，那我们就尽可能多造芯片。但这中间一定会有一个滞后。

这个滞后期能不能被缩短，很大程度上取决于大家接下来两年对 AGI 到来的预期有多强。如果大家都认为 AGI 快来了，才会提前建好晶圆厂。而一切又都取决于「台湾局势」。到时候台积电还是否能继续稳定产出芯片，会成为关键变量。

主持人：当我们训练模型去处理越来越长周期的任务时，它们需要更长的时间才能得到任务是否成功的信号，这会不会因为每个任务需要更多算力而减慢进展？

Trenton Bricken： 我确实有这种感觉，直觉上任务周期越长、越难，需要的训练就越多。我对此表示理解。但是，我们人类非常擅长分解任务，并专门练习其中困难的部分。我认为一旦模型在基础任务上做得足够好，它们就可以直接「排练」或「快进」到更困难的部分。

Sholto Douglas：这绝对是主要的复杂性之一。当你使用更多算力，训练越来越难的任务时，你在生物学领域的改进速度，在某种程度上会受限于一个细胞生长所需的时间，这和你改进数学能力的速度是不一样的。所以，是的，会有影响。但我认为对于很多事情，我们能够进行足够广泛的并行化，并获得足够多的迭代循环。

主持人：「训练新模型」这个模式会消失吗？我们最终会达到这样一个点吗：你已经有了一个模型，然后你只需要通过强化学习训练，不断地给它增加新技能？

Sholto Douglas：这取决于你是否认为预训练一个新的架构本身有其价值。基本上，只要你对模型架构做了改变，你很可能就需要至少重新预训练一个新模型。

主持人：如果强化学习本身就需要大量的推理来完成训练，这是否与您之前提到的「我们需要更大的模型才能拥有类似大脑的能效」相矛盾？因为更大的模型进行强化学习训练也更昂贵。那么，这个平衡点在哪里？

Trenton Bricken：我认为我们在这里必须接受「惨痛的教训」（bitter lesson）。是的，没有无限的捷径。你就是必须扩大规模，用更大的模型，并为此支付更多的推理成本。如果你想要 AGI，这就是你必须付出的代价。

Sholto Douglas： 但这里有一个权衡公式。这是一项科学工作，所有人都在做。到底在哪个点上进行强化学习是最佳的？因为你需要一个既能学习，又能自己发现稀疏奖励信号的东西。所以你肯定不想要一个只有一个参数的模型，那没用，就算你运行得再快。你也不想要一个 100 万亿参数的模型，它太慢了，其学习效率带来的边际效益不值得那个成本。所以，这里存在一个「帕累托前沿」（Pareto frontier）。在当前的能力等级、当前的强化学习环境等条件下，最佳的模型大小是什么？

Trenton Bricken： 而且，就在去年，推理成本的权重变得越来越大。简单来说，模型越大，进行一次前向传播和生成 token 的成本就越高。过去的计算公式只是：「我应该把我的计算资源（flops）分配给更多的训练数据，还是一个更大的模型？」而现在，另一个巨大的因素是：这个模型训练好之后，我到底要用它进行多少次前向传播？

Sholto Douglas： 我的总算力池，该如何分配给用于训练数据的算力，和用于强化学习训练的推理算力。

Trenton Bricken： 然后，即使在推理内部，也有各种各样的研究，比如，我应该用什么策略？我应该采样 10 次取最优的吗？我应该做这种分支搜索吗？等等等等。对于强化学习这种需要采样大量 token 的场景，你还需要考虑模型实际生成这些 token 的能力，以及后续学习和获得反馈的能力。

现阶段应该把模型的底线抬起来，

而不是追求极致

主持人：在模型训练中，我们是该优先关注如何让模型能力从平庸进步到良好，还是如何让它从优秀变得卓越？

Sholto Douglas：我觉得在初期阶段，更重要的是「爬坡路径」。人们之所以会「爬坡」，就是因为那条路径本身是分层的。一开始任务难度适中，你可以获得初步的改进信号，而且还能持续不断地获取反馈，这非常重要。比如像 Hendrycks MATH 这样的基准测试，当模型在这类任务上达到了瓶颈，我们才会说，「好，现在该换 FrontierMath 上场了。」

主持人：那怎么让模型少输出点「水分」内容（slop）？有没有相应的评估方法或指标？你为什么认为一年后模型会输出得更「干净」？

Trenton Bricken：你能详细说说「水分」是指什么吗？

主持人：比如你教模型解决一个编程问题，它学到的是「写尽可能多的代码来让这件事跑起来」，但我们其实是希望它有一定的审美，比如「用更优雅的方式实现这个功能」。哪怕功能一样，实现方式的优劣是有区别的。尤其在写作任务中，没有单元测试时，评价标准几乎就全靠「品味」了。那该怎么减少这些「水分」呢？

Sholto Douglas：我觉得很多情况下，你得依赖一些「外部信号」。比如说，「判断模型是不是输出了一堆多余文件」这类事，得比「生成正确解」本身更容易验证。这种差异性需要非常容易观察。

「Slop」（水分）很难处理。RLHF（基于人类反馈的强化学习）之所以一开始那么有效，就是因为人类可以识别出哪些内容是「多余的」。但这个评估过程本身并不总是那么稳定，特别是在更主观的任务里。

Trenton Bricken：我觉得还有一个因素是——我们其实很擅长识别「低质量」。我们不一定能说出最好的作品长什么样，但我们可以很快看出某些东西「很烂」。所以，只要能有效排除那些明显没价值的输出，整体质量就能快速提升一大截。

Sholto Douglas：对，模型的输出质量是个长尾分布。你想让模型尽可能少地产出那些「底部 5%」的内容。虽然你可能还不能稳定地产出「顶尖 5%」，但先把「最差的」去掉已经是很大的进步了。

主持人：但如果我们用的是 RL，它优化的是奖励信号，那你怎么设计「优雅 vs 冗余」的奖励机制？尤其在写作这类很难量化的任务上？

Sholto Douglas：这是目前比较难的一块。我们其实很难为「优雅」定义一个明确的奖励函数。但你可以退一步，从反向出发：首先定义什么是「明显差的」，然后训练模型去避免这些。我们有一些实验就是这么做的。

比如，在代码生成任务中，我们告诉模型：「如果你生成的代码太啰嗦，我们就会给你负反馈。」这样它慢慢就学会了：简洁就是更好的。虽然我们没法给出「这是完美代码」的定义，但可以告诉它「这是糟糕代码」。

Trenton Bricken：我觉得这和人类的写作训练很像。你一开始不是学怎么写得特别好，而是学怎么「别写得那么差」。你逐步减少「废话」、避免逻辑混乱，慢慢地就写得更好了。

主持人：所以本质上我们现在做的是在训练模型去「避开地雷」，而不是直奔终点？

Sholto Douglas：对，现在的重点是「把底线抬起来」，而不是「追求极致」。因为底线抬高之后，模型的平均表现也会大幅提升。

Trenton Bricken：而且随着模型规模变大，它自然也会更有能力理解什么是「更优的表达方式」。这是能力提升带来的泛化效应。

大语言模型是「雏形 AGI」，

AlphaZero 不是

主持人：LLM 和 AlphaZero 在通向 AGI 的道路上，关键区别是什么？为什么 LLM 被视为「雏形 AGI」，而 AlphaZero 不是？

Sholto Douglas：我认为很重要的一点是，当你分析 AlphaZero 时，会发现它确实具备了所有那些成功的要素。特别是它的智力上限，其实非常高——这跟我刚才说数学和编程问题有多复杂的观点，听起来可能有点矛盾。但我确实认为，AlphaZero 所处的「双人完美信息博弈」这种任务环境，对于强化学习（RL）算法来说，实在是太「友好」了。之所以我们花了这么久才孕育出更接近雏形 AGI 的模型，是因为我们必须先攻克一个更根本的难题：对真实世界、语言这类事物形成普遍的、概念性的理解。你需要从真实世界的任务中获得最初的奖励信号，而这类任务的定义可比游戏要难得多。所以，当来自真实世界的「梯度信号」一旦出现，你就等于突然拥有了攀升的阶梯，可以顺着它不断向上爬。而 AlphaZero，它甚至连第一级台阶都够不着。

Trenton Bricken：的确如此。这就像我们常说的「无限猴子定理」和预训练模型的关系。在 GPT-3 或 GPT-4 出现之前，模型连一句通顺的话都说不出来，你根本没办法对它进行 RLHF（基于人类反馈的强化学习），告诉它你喜欢什么、不喜欢什么。

主持人：是的。那我们大胆假设一下：如果到明年这个时候，我们还没能做出一个功能「说得过去」或者「基本稳健」的计算机应用智能体，这是否意味着我们正走向一条「失败的时间线」？就是说，所谓的「2030 年实现 AGI」就泡汤了？

Sholto Douglas：如果真发生那种情况，我会非常非常惊讶。那可能说明，计算机应用这个领域本身，有着我们未曾预料的、异乎寻常的困难。我不敢说那一定是「失败的时间线」，但肯定意味着我会大幅调高对（AGI 实现）时间的预期。

Trenton Bricken： 我认为这越来越不是一个需要猜测的问题了。如果有人还心存疑虑，我真心建议他们去试试 Claude Code 或者其他类似的智能体工具，亲身体验一下现在的技术到底达到了什么水平。

主持人：当然，在推特上发表意见可容易多了。

Trenton Bricken： 但我是认真的，在那些我们真正关心并且能提供足量数据的任务上，模型的能力正变得越来越强。同时，来自可解释性研究的「推理回路」（circuits）结果也表明，模型内部的运作方式非常合理，并且具有泛化能力。所以，这个问题固然重要，但我惊讶的是，很多深度学习的批评者要么很久没接触过这些模型了，要么就从没真正上手用过。

Sholto Douglas： 而且他们还总在不断地提高评判标准。

Trenton Bricken： 曾几何时，图灵测试还是个了不起的标杆。现在我们提都不提了，谁都觉得再把它当成一个有意义的测试很可笑。

Sholto Douglas： 不过，这里我得给自己留个「退路」：万一真的只有软件工程领域发展得特别好，而通用的计算机应用却毫无起色，那我可能会觉得，「好吧，也许只是因为所有人都把资源和精力集中在了最有价值的软件工程上」。毕竟，每一个边际人力和资本都投入到了那里。但我不认为会是这样。我坚信通用计算机应用本身就有足够的价值，值得人们为之努力。这是我为明年可能出现的意外情况，提前准备的一个解释。

主持人：是的。而且从「对齐」（alignment）的角度看，这或许反而是件好事。因为我觉得，一个模型如果想干出什么特别可怕的事情，它可能需要掌握非常广泛的技能才行。

Sholto Douglas： 你的意思是，比如模型的能力就此停滞不前了？

主持人：对，如果它们只是编码能力超强，但始终达不到亨利·基辛格那种「纵横捭阖」的战略高度。

Trenton Bricken： 我不确定，但那听起来似乎还不错。如果我们得到的是人工智能「神谕」（AI Oracles）的话。

主持人：我就是这个意思，那挺好的。

主持人：考虑到当前 AI 模型能力的「参差不齐」，我们讨论「通用智能」的意义何在？这是否意味着未来 AI 发展的重点将是更具体的「领域专长」？

Sholto Douglas： 我举个例子来帮助理解。当模型还处于 GPT-2 的体量时，大家通过微调让它去适应各种任务，那时模型的表现确实非常「偏科」，在被微调过的任务上要强得多。但到了 GPT-4 的时代，当它在极大的算力基础上，学习了极其广泛和多样化的数据后，它在所有子任务上都展现出了非常出色的泛化能力，甚至比那些专门为特定任务微调的小模型还要好用。我认为，我们现在在强化学习（RL）上看到的，不过是同样故事的重演。

目前，模型在被专门 RL 训练过的领域表现更好，能力确实「参差不齐」。但随着我们投入 RL 的总算力不断增加，你将看到类似从 GPT-2 微调到 GPT-3、GPT-4 的转变，即实现无监督的元学习和跨领域的泛化。事实上，我们已经从模型将推理能力泛化到其他任务上，看到了这种趋势的早期迹象。我相信，这一点很快就会变得不言而喻。

Trenton Bricken：一个很好的例子是「回溯」这个概念。就是说，你沿着一条思路解决问题，然后发现「等等，此路不通」，于是再尝试另一条路。这种能力正是通过在更难的任务上进行强化学习训练，在模型中逐步涌现出来的。不过我承认，目前这种能力的泛化做得还不够好。

Sholto Douglas：但你想想，我们什么时候用强化学习专门训练过一个模型去做「可解释性智能体」（interp agent）呢？从来没有。

Trenton Bricken：是的，确实没有。

Sholto Douglas：所以，虽然我们总说「模型只擅长它被 RL 训练过的事」，可它现在做可解释性工作的能力已经相当不错了。这项工作本身就融合了科学、语言理解和编程，你需要同时是一个优秀的软件工程师，又得能用语言和心智模型去思考，甚至在某些方面还得有点哲学思辨能力。模型能做到这个程度，恰恰说明它正在把从训练中学到的能力泛化应用。

操作电脑这事，

对 AI 来说并不难

主持人：现在我们看到一些「用电脑的模型」虽然表现一般，但有没有可能这就像 2007 年的 LLMs？也就是说，现在我们处在一个「前夜」，还有很多技术没被发明出来，还需要更多算力、不同的数据类型等。为什么我们会觉得「全能电脑 Agent 人」只差几个月就实现了？为什么它不是一个还要几年才成熟的方向？让模型学会使用电脑并处理实际工作任务面临哪些主要瓶颈？

Sholto Douglas：我觉得，从本质上来说，「使用电脑」跟「软件工程」其实没什么本质区别。只要你能把所有操作表示成 token，它们就是同一种任务。我们已经看到模型可以完成复杂的软件开发工作，那使用电脑这件事，也只是另一种「任务接口」罢了。

Trenton Bricken：你甚至可以说，软件工程难度更高。因为你得理解程序结构、调试代码，而点击网页、输入账号这些任务，其实只要模拟用户行为就可以了。

Sholto Douglas：是的。而且我们已经证明了，模型在复杂任务上可以做得很好。所以你不会认为「使用电脑」是根本性更难的挑战。它只是需要更强的上下文管理、更好的记忆系统——而这些东西我们也在不断改进。

主持人：所以你们的观点是，只要把环境建好，问题不是「能不能做到」，而是「何时实现」？

Sholto Douglas：没错。这些问题我们正在解决。我们看到最初的 prototype 版本已经跑起来了，下一步就是迭代和扩展。

Trenton Bricken：而且一旦模型能用电脑，它就能自己去学更多技能。就像人类一样，我们通过使用工具来获取信息、完成任务。同理，一旦模型学会打开 IDE、编辑代码，它就可以自己动手试验、调试。

主持人：听起来一旦我们迈过那个门槛，接下来就是指数级增长了。

Sholto Douglas：是的，届时你会看到大量自动化任务出现，而且能力会迅速积累。最难的是「从 0 到 1」的那一小步，但一旦过了那一关，后面就是自动扩展。

「即插即用」的 AI 员工

在未来两年内就会出现

主持人：面对 AI 的飞速发展和其普遍部署，你认为如何为白领工作的自动化做好准备？如何应对未来被广泛部署的、爆炸式增长的智能的情况？

Sholto Douglas： 我确实认为我们有必要深入探讨一下这种未来。疯狂的未来图景有很多种，但我感觉有一种是我们几乎注定会迎来的，这么说可能有点绝对，在未来五年内的某个时间点，我们至少会得到一个可以「即插即用」的白领 AI 员工。我认为很可能两年内就会实现，五年内简直是板上钉钉。

从宏观历史的角度看，两年和五年其实没多大区别，结果都一样。这将在未来十年内彻底改变世界。如果我们没有为此准备好正确的政策，那么在某些方面，我们最终得到的世界甚至可能从根本上变得更糟。因为这些模型默认最擅长的就是软件工程、计算机自动化操作这类事情。我们将需要投入额外的努力，才能把它们应用到能帮助我们进行科学研究的领域；或者，我们需要拥有合适的机器人技术，才能真正体验到物质生活质量的提升。这一点非常值得思考。

如果你站在一个国家的角度问：「我该做什么？我该思考什么？」那么答案是：为你国家所有的白领工作都可能被自动化做好预案。然后认真思考，这对你的经济意味着什么？你应该制定什么样的政策来未雨绸缪？

Trenton Bricken：我认为，即便 AI 技术停滞不前，即便模型能力显得「偏科」且不具备通用智能，但自动化白领工作的经济价值依然极其巨大。为这些不同岗位收集数据的难度也足够低。我认同刚刚 Sholto 提到的，我们应该预见到，白领工作在未来五年内就会被自动化。

Sholto Douglas：是的。

Trenton Bricken：哪怕你需要像喂饭一样，把每一项任务手把手地教给模型。

Sholto Douglas： 从经济上来说，也完全值得这么做。即便算法的进步停滞了，我们再也想不出如何让技术继续发展——当然我不认为会这样，目前算法进步的势头看起来很棒——但即便如此，当前这套算法，只要你有足够多、种类正确的数据，就足以实现白领工作的自动化。与这些工作的薪资总额这个巨大的市场（TAM）相比，这样做的投入产出比高得不值一提。

Trenton Bricken： 的确如此。我还想特别指出一点，如果你把「莫拉维克悖论」（Moravec’s paradox）推向极致，会导向一个非常反乌托邦的未来。这个悖论说的是，我们人类总认为自己能做的最有价值的事情，是那些最需要智力的事，比如心算大数，或者做任何白领工作。我们完全把我们精细的运动技能和协调能力视作理所当然。但从进化论的角度看，事实正好相反。进化已经把精细的运动协调能力优化得如此之好。你看看现在的机器人手，即便是开门这样一个简单的动作，对机器人来说仍然非常困难。与此同时，我们却看到编码和其他所有我们曾认为需要「聪明才智」的工作，正在被全面自动化。

所以，一个真正可怕的未来是，AI 可以做除了物理机器人任务之外的一切事情。到那时，你可能会看到人类戴着各类可穿戴设备产品。我们设想下，会有一个机器霸主通过摄像头控制着人类，告诉他们该做什么，在他们应该捡起的物体周围画一个框。于是，你就有了「人类血肉机器人」（human meat robots）。

Sholto Douglas： 我不是说 AI 会「想要」这么做。但如果你从纯粹的经济价值角度看，当 AI 在外面写代码时，人类能做的最有价值的事，就是成为一个出色的机器人。话虽如此，我认为「莫拉维克悖论」有点站不住脚。我觉得机器人之所以在物理操作上不如在软件工程上表现出色，主要原因在于，软件工程有互联网，有 GitHub。如果你能拥有相当一部分人口日常生活中所有动作的动态捕捉数据，机器人技术其实也离解决不远了，其解决速度会和软件工程的解决速度同步。

所以，刚才描述的景象可能只是一个长达十年的过渡阶段，但这仍然会是相当糟糕的十年。想象一下那个世界：人们失去了工作，新颖的生物学研究还没取得突破，这意味着人们的生活质量没有显著提高。你也没有实现物质极大丰富，因为你还没有办法以必要的方式改造物理世界。你无法大规模地建造更多东西，因为这基本上需要机器人，而此时人类的主要比较优势就是充当「高级机器人」。那将是一个极其、极其令人震惊的世界。

主持人：是的。但从一个普通人的视角来看，我觉得情况实际上可能会更好。你的工资会更高，因为你成为了 AI 这种极其宝贵的劳动力的互补品。

Sholto Douglas：我认为，我们现在需要尽最大努力去评估，未来可能发生的一些趋势。我们需要为所有其他形式的白领工作，都建立起像「SWE-bench」（软件工程基准测试）那样的评估体系，去测量和追踪。

主持人：刚才提到当前算法结合足够数据即可自动化白领工作，具体讲讲，设想的是什么样的自动化场景或数据收集方式？例如，会通过屏幕录像进行预训练吗？

Sholto Douglas： 我指的是一个连续的数据分布。关于强化学习，有一个重要的心智模型需要理解……在某种程度上，长周期的任务，如果你能完成它们，能得到那个最终的奖励，其实反而更容易评判。这又回到了那个问题：你能在互联网上赚钱吗？这是一个极其容易评判的奖励信号。但要做到这一点，需要一整套复杂的行为层级。所以，如果你能预训练到那些容易评判的奖励信号上，比如：你的网站能用吗？会宕机吗？人们喜欢它吗？

我们之所以能对这些奖励信号做出反应，是因为我们可以经历足够长的轨迹，最终触及那些有意义的结果。如果你被困在那种每五个 token 就需要一个奖励信号的模式里，那将是一个痛苦得多、也漫长得多的过程。但如果你能用全美国的每一块屏幕录像来进行预训练，那么你可能设计的强化学习任务，将与你只能利用现有互联网数据时设计的任务截然不同。你能接触到多少数据，将改变整个游戏的玩法。

（文：Founder Park）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31