OpenAI 研究员Noam Brown:将测试时计算从单体推理扩展到多智能体文明

AI 的每一次突破都有其核心推动者,而测试时间计算时代的旗手非Noam Brown莫属。

OpenAI 研究员Noam Brown最近在Latent Space播客中分享了他对AI 推理系统的深刻见解,从技术演进到未来展望,揭示了测试时间计算正在如何重塑整个AI 领域

推理能力的涌现时机

Noam指出了一个常被忽视的关键点:推理能力并非凭空出现,而是需要基础模型达到一定的能力水平

他用了一个生动的比喻:

如果你让一只鸽子努力思考如何下棋,即使给它一千年时间,它也不会变得更擅长下棋。

这解释了为什么推理范式恰好在GPT-4时代出现。

如果在GPT-2上尝试推理范式,几乎不会有任何收获。模型需要先具备足够的「系统1」智能水平,才能从「系统2」的深度思考中受益。

有趣的是,Ilya Sutskever在2021年就曾探索过代号为GPT-Zero的项目来研究测试时间计算。当时Noam还认为推理范式需要很长时间才能实现,但Ilya却认为「也许并没有那么难」。

推理带来的意外收获

推理系统不仅提升了模型能力,还带来了更好的可控性和安全性

Noam提到,当他们发布Cicero(外交游戏AI)时,AI 安全社区的反应出人意料地积极:

研究人员告诉我们,他们认为这可能是实现系统安全的好方法。因为它是一个非常可控的系统,有明确的行为定义,而不是让语言模型随心所欲。

这种可控性来自于推理系统对语言模型交互方式的引导,让AI 的行为更加可预测和可解释。

超越可验证奖励的边界

很多人质疑推理模型只能在数学和编程等有明确答案的领域发挥作用。Noam对此回应道:

我很惊讶这种看法如此普遍。我们已经发布了Deep Research,人们可以试用它。这显然是一个没有容易验证成功指标的领域,但这些模型在该领域表现极其出色。

这证明了推理模型可以在没有明确验证奖励的任务中取得成功

不过,视觉推理确实存在局限。

虽然O3在GeoGuessr游戏中击败了大师级玩家,但Noam指出:

有些问题确实不太能从系统2思考中受益。比如信息检索——如果有人问你「这个人什么时候出生」而你没有网络访问权限,那么你要么知道,要么不知道。

从推理到多智能体文明

Noam领导的团队虽然叫「多智能体团队」,但他坦言这个名字其实是个误称,因为他们的研究范围远不止于此。

团队的研究方向包括:

  • 将测试时间计算从15分钟扩展到数小时甚至数天
  • 探索多智能体的协作与竞争机制
  • 构建AI 文明的可能性

Noam对人类智能的看法特别有启发性:

人们常说人类智能只占据很窄的一个波段,AI 会快速超越。但我认为人类智能的波段其实相当宽广。如果比较解剖学上相同的穴居人和现代人,穴居人并没有登月或制造半导体。区别在于,我们有数千年时间、数十亿人类相互合作与竞争,逐步建立起文明。

他认为今天的AI 就像AI 世界的穴居人,如果能让数十亿AI 长期合作与竞争,建立起文明,它们能创造的成果将远超今天的想象。

自我对弈的局限与突破

关于自我对弈(self-play),Noam提供了深刻的技术洞察。很多人将自我对弈视为通向超级智能的最后一步,但他指出了关键问题:

围棋是双人零和博弈,自我对弈会收敛到极小极大均衡。这在围棋和国际象棋中显然是你想要的。但一旦超出双人零和博弈,这实际上就不再是有用的策略了。

在数学等领域采用同样的自我对弈方法,会导致非常奇怪的行为。这解释了为什么简单地将AlphaGo的方法应用到语言模型并不能直接带来超级智能。

测试时间计算的两大挑战

测试时间计算面临两个主要瓶颈:

成本瓶颈:随着思考时间延长,计算成本呈指数级增长。不过Noam强调,模型的思考效率也在提升,能用相同的计算时间完成更多工作。

时间瓶颈:当模型需要思考三周才能给出答案时,实验迭代变得极其困难。在药物研发等领域,这个问题尤其突出——要验证一种新药是否真的延长寿命,需要等待很长时间。

Windsurf与日常AI 使用

在个人使用方面,Noam分享了他的体验:

O3基本上已经取代了我的Google搜索。我一直在使用它。对于编程之类的任务,我倾向于使用推理模型。

他建议那些还没有尝试过推理模型的人去体验一下:「人们会惊讶于它们能做什么」

Latent Space(@latentspacepod)指出:「这可能是自2022年Chinchilla扩展定律以来LLM研究中最重要的图表」。

测试时间计算的时代才刚刚开始,从单体推理到多智能体文明的道路还很漫长,但方向已经明确——

AI 不再只是在训练时变得更聪明,而是在思考时变得更深刻

播客全文译文

标题: 将测试时计算扩展至多智能体文明:Noam Brown访谈

来源链接: https://www.latent.space/p/noam-brown

发布时间: 2025-06-19T21:06:05+00:00

AI领域的每一次突破都有一位核心倡导者提出并推广关键的扩展定律——摩尔定律让位于黄氏定律(硅芯片)、Kaplan等人让位于Hoffman等人(数据)、AlexNet让Ilya在苦涩的教训[1](预训练)发表前7年就深陷深度学习。正如我们在去年1月[2]所指出的,以及Ilya在12月确认的[3],我们现在显然已进入测试时扩展的时代,而这一领域有一位明确的领军人物。

图1

“这可能是自2022年Chinchilla扩展定律以来LLM研究中最重要的图表。” —— Dr. Jim Fan[4]

Noam作为全球领先的推理研究专家之一,早已声名远扬。你可能在TED演讲[5]OpenAI视频[6]许多顶级AI播客[7]中听过他的分享。我们很荣幸他能抽出时间参加我们的节目。闲话少叙,直接进入今天访谈的精华部分。

以下是我们的笔记要点:

  • 推理是涌现的:如今,“快思考与慢思考”中系统1(非推理)与系统2(推理)模型的区别,以及1单位测试时计算相当于模型规模增加1000-10000倍的不对称性已被广泛理解。但更少人意识到的是,这种能力只有在GPT4之后才可能实现。正如Jim Fan所说,必须同时扩展两者[8]

“我认为一个未被充分认识的事实是,预训练模型需要具备一定的基础能力才能真正从额外思考中受益。这就是为什么推理范式会在那个时间点出现。虽然它本可以更早出现,但如果你试图在GPT-2上应用推理范式,几乎不会有任何效果……如果你让一只鸽子认真思考如何下国际象棋,它再怎么想一千年也下不好。所以就像动物和人类一样,你需要系统1具备一定智力水平,才能从系统2中受益。”

鲜为人知(也未经证实)的是,在GPT-3之后,Ilya曾在2021年开展了一个代号为GPT-Zero[9]的项目探索测试时计算。访谈中的一个意外发现是,实际上是Ilya说服了Noam相信推理型LLM比他想象的更接近现实,而非相反:

“……如果我们有一万亿美元来训练这些模型,或许可以,但在经济可行性限制下,除非引入推理范式,否则我们无法达到超级智能。我当时错误地认为推理范式需要很长时间才能解决,因为它是一个巨大的未解研究问题。Ilya同意我的观点,他说我们需要这个额外的范式,但他的看法是——也许它没那么难。”

(未经删减的)假设是,我们甚至无法直接从GPT3过渡到o1,而是需要GPT4和4o作为基础。

  • 推理有助于对齐。安全性、可控性和对齐是AI社区某些部分非常热门的话题,而令人惊讶的是,推理对此有帮助:

“在我们发布Cicero后,许多AI安全社区的研究者对此非常满意,因为它是一个非常可控的系统。我们为Cicero设定了具体的行动条件,这赋予了它很强的可操控性。它不是放任自流的语言模型,而是通过一整套推理系统来引导语言模型与人类互动。实际上,许多研究者联系我说,他们认为这可能是实现系统安全的一种非常好的方式。”

  • 推理可推广至不可验证奖励的领域。对RLVR(强化学习验证奖励)的一个批评是它只能提升模型在数学和编程领域的表现。Noam的回答:

“我很惊讶这种观点如此普遍,因为我们发布了Deep Research,人们可以试用它。它显然是一个没有明确成功指标的领域……但这些模型在这个领域表现非常出色。我认为这是一个存在性证明,表明这些模型可以在没有易验证奖励的任务中取得成功。”

  • 视觉推理存在局限。人们对O3击败地理猜谜大师级玩家[10]感到兴奋,但也有局限:

“这取决于你提出的问题类型。有些问题确实无法从系统2中受益。地理猜谜显然是可以的……我通常举的例子是信息检索。如果有人问你‘这个人什么时候出生的’,而你没有网络访问权限,那么你要么知道答案,要么不知道。你可以长时间思考,或许能做出有根据的猜测……但除非你确实知道,否则无法给出确切日期。”

  • 推理曾被OpenAI的非信徒低估,但数据墙的逼近使其成为必然

“当时有很多关于‘额外范式是什么’的争论。许多研究者关注推理和强化学习,但重点并不在扩展测试时计算,而是数据效率。因为感觉我们拥有大量计算资源,但数据才是瓶颈。我们会先触及数据墙而非计算限制。如何让算法更高效地利用数据?

它们确实更高效,但同时也相当于大幅提升了计算规模……我记得一个有趣的事:有人在推理范式被发现后但o1发布前离开了OpenAI,去了竞争对手的实验室。o1发布后我遇到他,他告诉我当时他们真的不认为草莓模型(推理模型)有多重要,觉得我们夸大了它的意义。但当他们看到竞争对手实验室同事的反应——所有人都认为这是大事,并全面调整研究方向聚焦于此时,他们才意识到这或许真的很重要……很多事在 retrospect(回顾)时看起来显而易见,但在当时并非如此。”

  • 推理+Windsurf=感受AGI

问:现在沉浸于Windsurf后,有什么专业建议吗?

答:让我惊讶的是很多人甚至不知道O3的存在。我每天都在用它,它基本取代了我的Google搜索。在编程等任务中,我也倾向于使用推理模型。我的建议是,如果还没尝试过推理模型,真的值得一试。用过的人都会爱上它。

  • 测试时计算的扩展将面临挑战1[11]

“我们会让模型从思考3分钟扩展到3小时,再到3天甚至更久。但有两个问题:

一是成本。随着测试时计算增加,开销也会增长,这会限制可投入的上限。

(需要说明的是,这些模型的思考效率也在提升,能以相同计算量做更多事。这一点常被忽视。)

二是时间瓶颈。当模型需要几小时响应时,实验迭代变得困难。如果它们思考几周呢?评估和后续实验至少需要同样长时间。虽然可以并行化部分实验,但许多情况下你必须等待完整结果才能设计下一步。

我认为这是长周期时间表的最强依据——模型需要完成的思考量太大了。例如药物发现领域,验证一种新药是否延长人类寿命且无严重副作用可能需要极长时间。”

其他评论者也认为长周期RL数据[12]比人们想象的更遥远。

尽管如此,测试时扩展时代的到来恰逢其时——就在Orion[13]运行预计耗尽计算资源之际,而SG1要到12月才上线[14]

近期关于多智能体的争论很多,Cognition说“不要构建多智能体”而Anthropic则指导“如何构建”[15]。已有许多[16]许多[17]许多[18]观点,但Noam从事多智能体RL研究多年[19],并宣布了OpenAI的多智能体团队[20]……尽管这只是几个可能研究方向中最突出的一个……

“我认为团队名称其实不太准确,因为我们不只研究多智能体。多智能体只是方向之一。另一个方向是大幅扩展测试时计算——如何让模型从思考15分钟延长到几小时甚至几天,以解决极其复杂的问题。

多智能体的动机有几方面。我们既关注协作也关注竞争。常有人说人类智力范围很窄,AI将迅速超越。但我认为人类智力带宽其实很广——对比解剖结构相同的原始人类和现代人,后者能登月、造半导体和核反应堆。区别在于数千年来数十亿人类的协作与竞争积累的文明成果。

同理,今天的AI就像智能的‘原始人’。如果能让数十亿AI长期协作竞争、构建文明,它们的产出将远超当前AI的能力范围。”

多智能体的“苦涩教训”

“我们在技术细节上的做法与历史和其他机构当前的方法非常不同。我在多智能体领域很久了……许多现有方法非常启发式,没有遵循扩展研究的‘苦涩教训’。”

苦涩教训 vs 世界模型 & Yann LeCun

“……很明显,随着模型规模增大,它们会隐式形成世界模型,且这种模型会随规模改善。我认为不需要显式建模……多智能体AI领域长期争论是否需要显式建模其他智能体。我曾认为必须显式建模,因为它们的行为与环境不同。但后来我转变了观点——如果模型足够聪明,它们会自发形成心理理论等能力。这些能力会随规模隐式涌现。”

结合开放性、多智能体与自我博弈:OpenAI曾探讨过弱到强泛化问题[21],GDM的OpenEndedness负责人Tim Rocktaschel在ICLR新加坡大会上做了备受好评的主题演讲[22]完整视频[23]),这引发了一个关于多智能体扩展超越人类能力(“苦涩教训”中的终极限制)的问题:

“问:最一致的发现总是AI通过自我博弈竞争提升比人类训练更有效(如AlphaZero、R1 zero)。你认为这适用于多智能体吗?

答:这是个好问题。很多人将自我博弈视为通往超级智能的下一步甚至最后一步。AlphaGo的发展轨迹似乎也支持这点:

  • 第一步是大规模预训练(人类围棋棋谱/互联网数据),得到强模型但非超人类。

  • 第二步是大规模测试时计算(MCTS/推理模型),显著提升能力。

  • 最后是自我博弈,模型自我对弈学习,从人类水平跃升至难以理解的超强水平。

但挑战在于:围棋是双人零和博弈,自我博弈会收敛到极小极大均衡(GTO策略)。这在扑克中就不那么明确——GTO策略保证不输,但对抗弱玩家时无法最大化盈利。一旦脱离双人零和博弈,这种策略就失效了。比如数学中的自我博弈是什么?让一个模型出难题另一个解答?但可能陷入出无意义难题的陷阱。”

图2

击败所有扑克玩家[24],到用LLM在《外交》游戏中跻身全球前10%[25],再到个人赢得世界外交冠军[26],游戏是Noam思维和职业生涯的重要组成部分。但不仅仅是任何游戏……

“……我在不完美信息游戏AI方面有大量知识储备。这是我的长期研究领域,但很少有机会谈论。

我们开发的无限德州扑克AI中,隐藏信息量其实有限(每人两张底牌),可能状态数较易枚举。但随着隐藏可能性数量增加(如奥马哈扑克4张底牌、《Stratego》40个棋子约40!种状态),这些方法就会失效。

关键问题是:当隐藏状态数极大时该怎么办?这是一个非常有趣且未解决的问题……但我认为更有价值的是聚焦通用推理技术。终有一天,我们会拥有能直接以超人类水平玩《万智牌》的模型——这才是更重要、更令人印象深刻的研究方向。”

附注:Noam在播客中提到的LLM自我博弈外交挑战已在随后的AIE世界博览会[27]上发布。

非常荣幸能邀请Noam参与节目,建议收听完整内容以获取更多精彩内容!如果遗漏了什么重要内容,请告诉我们。

  • 00:00 开场 – 外交、Cicero与世界冠军
  • 02:00 反向半人马:AI如何提升Noam的人类水平表现
  • 05:00 聊天中的图灵测试失败:幻觉与可控性
  • 07:30 推理模型与快慢思考范式
  • 11:00 视觉任务中的系统1 vs 系统2(地理猜谜、井字棋)
  • 14:00 Deep Research在不可验证领域的存在性证明
  • 17:30 AI智能体的约束、工具使用与脆弱性
  • 21:00 反对过度依赖脚手架和路由器的案例
  • 24:00 强化微调与模型的长期适应性
  • 28:00 Ilya对推理的押注与O系列突破
  • 34:00 Noam的开发栈:Codex、Windsurf与AGI时刻
  • 38:00 培养更好的AI开发者:记忆、重用与PR审查
  • 41:00 多智能体与“AI文明”假说
  • 44:30 通过扩展隐式形成的世界模型与心理理论
  • 48:00 为什么自我博弈在围棋和象棋之外会失效
  • 54:00 为模糊任务设计更好的基准
  • 57:30 测试时计算的真实限制:成本 vs 时间
  • 1:00:30 人类与LLM的数据效率差距
  • 1:03:00 训练流程:预训练、中期训练、后期训练
  • 1:05:00 游戏作为研究试验场:扑克、万智牌、Stratego
  • 1:10:00 结束语 – 五年展望与开放研究方向

Alessio [00:00:04]: 大家好,欢迎来到Latent Space播客。我是Decibel的合伙人兼CTO Alessio,我的搭档是SmolAI创始人swyx。

swyx [00:00:12]: 大家好,我们在一个假期的周一与OpenAI的Noam Brown一起录制这期节目。欢迎你。终于能邀请到你真是太棒了。很多人听过你的分享——你最近在Lex Friedman的播客上很活跃,还做了TED演讲谈论思考范式。但或许你最近的成就是赢得世界外交冠军。2022年你开发的Cicero达到了人类玩家前10%的水平。我的开场问题是:自从开发Cicero到现在亲自参赛后,你的外交游戏方式有什么变化?

Noam [00:00:52]: 研究这些游戏时,你必须足够理解游戏才能调试AI。因为当AI做出非常规行为时,你需要判断这是系统错误还是AI的 brilliance(卓越表现)。在研究外交时,我深入学习了这个游戏——参加比赛、观看教学视频和游戏解说。在这个过程中我进步了。同时观察AI的行为也让我学到很多——有时它会做出人类不会做的举动。Cicero在2022年底发布后,我依然对这个游戏着迷,持续练习最终在2025年赢得了世界冠军。

swyx [00:01:45]: 就像国际象棋中的“半人马系统”(人机协作),你的玩法是否因此更新?

Noam [00:01:55]: 如果你问是否在比赛中使用Cicero,答案是没有。但AI的玩法确实给了我启发。

swyx [00:02:06]: 现在玩家会像图灵测试那样在游戏中盘问对手是否是机器人吗?

Noam [00:02:19]: 开发Cicero时很有趣——当时语言模型质量有限,AI偶尔会说些奇怪的话。99%的时候正常,但突然它会否认自己刚说过的话。玩家通常以为对方是喝醉了或开玩笑,因为他们没想到会遇到AI。如果玩家有防备,其实很容易识破。不过现在的语言模型(如GPT-4.0)已经能通过图灵测试了。

Alessio [00:03:39]: T-Zero模型很小吧?只有27亿参数?

Noam [00:03:42]: 对,很小的语言模型。我们当时就意识到更大模型会带来显著提升。

Alessio [00:03:50]: 你如何看待当前AI安全讨论中关于“开发擅长说服人类协助获胜的AI”的担忧?

Noam [00:04:08]: 实际上Cicero发布后,AI安全社区很认可这项研究——它是一个高度可控的系统。我们通过具体行动条件约束AI,使其行为可解释、可操控。许多研究者联系我说,他们认为这可能是实现AI安全的重要途径。

swyx [00:04:50]: 最后一个外交相关问题:你有用O系列模型测试过外交吗?预计会有多大提升?

Noam [00:05:01]: 我还没试过,但曾在推特说过这将是个绝佳的基准测试。我很期待各大AI互相对弈。目前听说效果还不理想,但这确实是个迷人的研究方向。

swyx [00:05:25]: 现在聊聊O系列。上次你公开宣传时刚发布O1,做了TED演讲。自去年底以来,氛围有什么变化?你说过很期待向化学等领域专家学习,现在有什么新发现?

Noam [00:05:48]: 发展轨迹其实很早就明确了。从O1预览版到O3的持续进步符合预期。我看到的是推理范式将继续快速演进,能力范围也在扩大。现在O3已能代理执行任务——比如我每天用它进行网络调研,就像迷你版Deep Research。它正变得越来越强大、实用。

Alessio [00:07:07]: 谈到Deep Research,你发推说“若需要不可验证领域成功的证据,Deep Research就是绝佳案例”。能展开讲讲吗?我常听人说推理模型只在数学、编程等易验证领域有效。

Noam [00:07:51]: 我很惊讶这种观点如此普遍。Deep Research显然是没有明确成功指标的领域,但模型表现极其出色。这就是存在性证明——推理模型能在奖励不易验证的任务中成功。

Alessio [00:08:07]: 是因为这类任务没有绝对错误答案吗?Deep Research报告质量有梯度,用户能区分优劣吗?

Noam [00:08:24]: 我的观察是用户确实能区分报告质量。虽然目前并非100%完美,但人们能识别优秀报告与平庸之作。我们还会持续改进。

swyx [00:08:56]: 很多人借用你的“快慢思考”类比来解释思考模型。这个类比在哪些方面不适用于实际模型扩展?

Noam [00:09:21]: 一个被低估的事实是:预训练模型需要具备基本能力才能受益于额外思考。这就是为什么推理范式会在GPT-4时期出现。如果在GPT-2上尝试推理范式,几乎不会有效果——就像让鸽子思考国际象棋毫无意义。这或许类似于大脑进化:需要先发展大脑皮层。某种程度上,这与系统1/系统2的原始理论并不矛盾——动物也需要基础智力才能进行深度思考。

swyx [00:10:36]: 这个理论也适用于视觉推理吗?比如现在有了原生多模态的4.0模型,O3在地理猜谜中表现优异。

Noam [00:11:17]: 取决于具体任务。地理猜谜确实受益,但图像识别可能受益较少。最典型的例子是信息检索——不知道答案时,思考再久也无法凭空获取准确信息。

swyx [00:12:01]: 但空间推理(如井字棋)可能更适合?

Noam [00:12:06]: 对,GPT-4.5下井字棋会犯错,需要系统2才能完美发挥。或许GPT-6仅用系统1就能完美下棋,但目前还需要系统2辅助。

Alessio [00:12:34]: 系统1需要哪些基础能力?比如理解游戏规则外,是否需要掌握元游戏策略(如不同棋子的价值评估)?

Noam [00:12:53]: 这类似于人类学习——第一次下棋时即使很聪明也需要大量系统2思考。但积累系统1的直觉会大幅提升效率。就像《宝可梦》例子中,系统1需要游戏知识,但仍需大量外部约束。我认为理想情况是最终消除这些约束——脚手架只是临时拐杖。

Alessio [00:13:53]: 检查合法移动算约束吗?还是应该内化到系统1中?

Noam [00:15:11]: 这是设计选择问题。可以提供“检查移动合法性”的工具调用选项,但不应允许悔棋——就像机器人执行错误动作后无法撤销现实影响。

swyx [00:16:48]: 有些人将这种“试错”归类为测试时计算,你不同意?

Noam [00:16:53]: 有很多理由不依赖这种范式。现实中执行错误动作会造成不可逆后果,不能简单撤销。

swyx [00:17:14]: 关于快慢思考,很多人尝试在快速响应模型和深度思考模型间添加路由层(如Anthropic)。路由模型需要和智能模型同样聪明吗?

Noam [00:17:51]: 简单模型也能识别难题并路由给更强模型,但确实可能被愚弄或过度自信。不过我认为许多当前构建的内容(如脚手架)终将被规模效应淘汰——就像推理模型出现后,那些复杂的多模型调用系统反而显得多余。开发者需记住领域发展极快,避免投入六个月构建可能很快过时的系统。

Alessio [00:20:46]: 强化微调(RFT)呢?值得现在投入吗?

Noam [00:20:50]: RFT很有价值,它能针对特定数据优化模型。即使未来模型升级,这些数据依然有用——这与可能被淘汰的脚手架不同。

swyx [00:22:14]: 关于Ilya:你在Sarah和Elad的播客中提到,几年前他与你讨论过强化学习和语言模型推理。为什么他当时的尝试没成功?现在时机为何成熟?

Noam [00:22:31]: 不应说他的尝试失败——更多是研究迭代的过程。我在扑克、Hanabi等游戏中看到“先思考后行动”带来巨大提升(相当于模型规模扩大千倍)。但2021年底与Ilya晚餐时,我表示怀疑单靠预训练扩展能达到超级智能——除非解决通用推理范式。Ilya同意需要新范式,但他认为可能没我想象的难。后来我才知道OpenAI内部已在探索这方面,经过多次迭代,随着模型能力提升和实验加速,最终催生了推理范式。

swyx [00:24:57]: 有传言称该项目代号GPT-Zero。RL曾经历低谷又复兴,你认为原因是什么?

Noam [00:25:45]: 2023年10月左右我们看到明确信号后,OpenAI全力投入扩展,这促成了推理模型的诞生。但当时内部也有争议——毕竟资源有限,选择重点方向意味着牺牲其他研究。有趣的是,有人在O1发布前离职加入竞争对手,起初认为草莓模型被高估,直到看到对方实验室全力转向该领域才意识到其重要性——很多突破在 retrospect(回顾)时显而易见,但在当时难以识别。

Alessio [00:29:00]: OpenAI似乎总能在关键时刻做出正确选择,从游戏/NRL转向语言模型扩展,再到现在的突破。

Noam [00:29:19]: 优秀的研究总是 retrospect 中显得显而易见,但当时并非如此。

swyx [00:29:35]: 关于数据效率:相比人类只需5个样本就能学习,当前机器学习仍低效(约需200样本)。有人在做有趣的研究吗?

Noam [00:30:05]: 确实,模型数据效率低于人类。婴儿吸收的 token 数难以量化,但这确实是重要未解问题。注意人类不仅从互联网学习——收集更多样数据可能是方向。

swyx [00:31:05]: 最后一个关于Ilya的问题:与他共事有什么轶事或洞见?

Noam [00:31:17]: 最令我印象深刻的是他的远见——看到他2021年甚至更早的内部文档,对发展路径和所需条件的清晰认知令人叹服。

swyx [00:32:04]: 他2016-17年OpenAI成立时的邮件显示,当时他就提出“一个大实验价值超过100个小实验”——这让他们与DeepMind区分开来。似乎他总能更清晰地看到本质。

Noam [00:32:27]: OpenAI的成功在于早期押注扩展范式。当时他们不是最大实验室,却像初创公司般运作,集中资源做艰难选择。其他实验室现在也在效仿这种模式。

Alessio [00:33:22]: 聊聊杀手级应用——编程。你最近发布了Codex,能否分享你的编程工具栈?用哪些模型?如何交互?

Noam [00:33:35]: 最近主要用Windsurf和Codex。给Codex任务后,它五分钟后就能返回PR。我会优先尝试用Codex完成所有编码任务——既高效又能亲身体验技术边界。

swyx [00:34:20]: 你感受过AGI时刻吗?

Noam [00:34:21]: 多次体验过。但神奇的是你会快速习惯——就像现在看最初的Sora视频已能挑出瑕疵。好在技术发展极快,每隔几个月就有新的震撼时刻。

swyx [00:35:33]: 对Windsurf用户有什么建议?

Noam [00:35:38]: 惊讶于很多人甚至不知道O3存在——它已取代我的Google搜索。建议务必尝试推理模型,用户反馈非常积极。

Alessio [00:37:09]: AI开发周期中最不完善的部分是什么?我认为是PR审查——Codex生成大量PR后难以处理。

Noam [00:37:31]: 主要瓶颈在我们自己。当前模型像“天才但第一天上班”——要求相似任务时会重复耗时过程。我们需要让AI积累“数月工作经验”般的持续学习能力。

Alessio [00:38:19]: 这些限制主要来自GPU约束吗?比如Codex让我手动设置环境,而O3本可自动完成。

Noam [00:38:41]: 我们处于快速进步的尴尬期——O3远非技术终点,六个月后会有更大突破。

swyx [00:39:29]: 未来一年模型能力会如何发展?

Noam [00:39:37]: 不限于编程——将能处理多种远程工作。建议从事远程工作的人尽早熟悉这项技术,了解其能力边界。

swyx [00:40:20]: 虚拟助理可能是下一个爆发点?可完整记录输入输出便于训练。

Noam [00:40:44]: 如果AI能真正对齐用户偏好,可能比人类助理表现更好——解决委托中的代理问题。

swyx [00:41:09]: “对齐”一词在安全对齐与指令跟随对齐间存在同形异义,它们何时分叉?

Noam [00:41:30]: 关键分歧在于“对齐什么”——用户想要毁灭人类怎么办?二者相关但目标设定是核心问题。

Alessio [00:41:35]: 你宣布领导OpenAI多智能体团队后,有什么研究进展可以分享?

Noam [00:41:51]: 团队名称其实不准确——我们不仅研究多智能体。另一个方向是极大扩展测试时计算(从15分钟到数天)。多智能体研究动机包括:

  • 协作与竞争维度
  • 人类智力带宽其实很广——原始人与现代人的差距源于数千年文明积累
  • 当前AI像“智能原始人”,数十亿AI长期协作竞争可构建远超当前能力的文明

Alessio [00:44:10]: 这与Jim Fan的Voyager技能库理念相似吗?还是模型直接在新知识上训练?

Noam [00:44:30]: 暂不透露具体方法,但我们的技术路径与历史和其他机构截然不同。现有许多方法过于启发式,未遵循扩展研究的“苦涩教训”。

swyx [00:44:57]: 能具体说明现有方法的误区吗?

Noam [00:45:07]: 许多方法缺乏原则性,未坚持扩展优先的研究范式。

Alessio [00:45:16]: 你在扑克领域的卓越工作引发一个问题:如今GTO(博弈论最优)策略盛行,但剥削性打法被忽视。在多智能体竞争中,会持续寻找最优解还是更注重实时剥削?

Noam [00:45:46]: (解释博弈论最优与剥削策略的区别)扑克AI采用GTO策略保证不输,但对抗弱玩家时无法最大化盈利。外交游戏则必须放弃GTO转向建模对手——这种技术也可用于开发剥削性扑克AI。如果没被通用AI进展吸引,我下一步就会研究这个方向。

Alessio [00:51:16]: 在线扑克的HUD(数据面板)显示对手数据,但当前模型似乎不利用这些行为信息?

Noam [00:51:36]: 确实,当前扑克AI固守预计算GTO策略,缺乏适应性。

swyx [00:52:29]: 世界建模是否重要?Yann LeCun常谈显式世界模型,但LLM只有隐式模型。

Noam [00:52:48]: 模型随规模增大会隐式形成世界模型,无需显式构建。多智能体领域长期争论是否需要显式建模其他智能体——我曾支持显式建模,但现在认为足够聪明的模型会自发形成心理理论等能力。

swyx [00:53:56]: ICLR上Tim关于开放性的演讲提出:自我博弈在AlphaZero等游戏中效果超越人类训练。这对多智能体适用吗?

Noam [00:54:33]: 许多人视自我博弈为通往超级智能的最后一步。AlphaGo的发展轨迹似乎支持:

  1. 大规模预训练
  2. 大规模测试时计算
  3. 自我博弈实现超人类水平

但挑战在于:围棋是双人零和博弈,自我博弈收敛到极小极大均衡。扑克中GTO策略已非显然最优,而数学等领域的自我博弈更难定义——可能陷入出无意义难题的陷阱。这是AlphaGo类比失效之处。

swyx [00:58:39]: 那么新目标函数是什么?

Noam [00:58:43]: 这正是许多人正在思考的问题。

swyx [00:59:10]: 你提过对Sora印象深刻。最近生成媒体的新进展是自回归图像生成,对此有何看法?

Noam [00:59:19]: 我不研究图像生成,但觉得非常惊艳。公众更关注这类视觉进展,但请相信我们确实同时在研究超级智能。

swyx [01:00:18]: 我认为自回归可能终结扩散模型——但Gemini又推出文本扩散。这两种推理方式谁会胜出?

Noam [01:00:38]: 研究的魅力就在于探索不同路径,这种多样性对领域有益。

Alessio [01:01:06]: 你硕士研究机器人学,如何看待当前人形机器人热潮?是否存在更优形态?

Noam [01:01:36]: 我的机器人学经历让我决心不研究实体硬件——软件迭代快得多。对人形机器人没有强烈观点,但无人机等非人形也很有价值。Physical Intelligence公司CEO的观点很有说服力。

swyx [01:03:25]: 人形论据是“世界为人类设计”,要替代人力必须适配现有环境。

Noam [01:03:44]: 我不擅长产品设计,但确实存在“恐怖谷”问题——似人非人可能更令人不安。

swyx [01:04:08]: 你们如何跟踪前沿研究?

Noam [01:04:39]: 学术研究并非无关。挑战在于许多论文结果无法复现或难以扩展。我们会内部复现有潜力的工作。主要通过内部推荐和领域跟踪。

Alessio [01:06:16]: ACPC扑克竞赛限制双CPU导致无人研究搜索算法。当前研究环境是否存在类似限制?

Noam [01:06:37]: 基准测试设计是个例子——像“人类最后考试”这种易评分但局限评估范围。许多重要任务更模糊、评估成本更高,但值得研究。

swyx [01:07:37]: 假设预训练扩展范式用了5年(GPT到GPT-4),给测试时计算也5年。若2030年它碰壁,可能原因是什么?

Noam [01:07:54]: 两个主要限制:

  1. 成本随计算时间指数增长
  2. 时间瓶颈——当模型思考需数周时,实验迭代周期大幅延长

药物发现是典型领域——验证药物延长寿命需极长时间。不过模型思考效率也在提升(O3比O1预览版用时相近但效果更好)。这是支持长周期时间表的最强论据。

Alessio [01:11:22]: 如何定义中期训练与后期训练?

Noam [01:11:31]: 这些定义很模糊。中期训练是在预训练后对模型的增强,后期训练是发布前的最后优化。用户接触的始终是完整产品。

swyx [01:12:11]: 如果采访Greg Brockman,你会问什么?

Noam [01:12:25]: 建议关注5-10年后的世界图景——人们太聚焦短期。他对此必有深刻见解。

Alessio [01:13:08]: 推荐什么社交游戏?

Noam [01:13:12]: 最近常玩《Blood on the Clocktower》(类似狼人杀)。有趣的是它正取代扑克成为硅谷社交方式——甚至有公司用它举办招聘活动。

Alessio [01:14:48]: 《万智牌》等隐藏信息极多的游戏,难度如何随复杂度增长?

Noam [01:15:08]: (兴奋地)这是专业领域!德州扑克隐藏状态较少(每人两张牌),但奥马哈扑克(四张牌)、《Stratego》(40!状态)使扑克AI方法失效。当前最 promising(有前途)的是通用推理技术——终有一天模型会直接以超人类水平玩《万智牌》。

Alessio [01:17:31]: 感谢Noam做客!

Noam [01:17:34]: 谢谢邀请!


我们先前写道“测试时计算将碰壁”——经Noam澄清[29]后修正。




[1]

苦涩的教训: https://www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson.pdf

[2]

去年1月: https://www.latent.space/p/jan-2024

[3]

Ilya在12月确认的: https://www.latent.space/p/what-ilya-saw

[4]

Dr. Jim Fan: https://x.com/DrJimFan/status/1834284702494327197

[5]

TED演讲: https://www.youtube.com/watch?v=MG9oqntiJKg

[6]

OpenAI视频: https://www.youtube.com/watch?v=tEzs3VHyBDM

[7]

许多顶级AI播客: https://www.listennotes.com/search/?q=noam%20brown&sort_by_date=0&scope=episode&offset=0&language=Any%20language&len_min=0

[8]

同时扩展两者: https://x.com/DrJimFan/status/1834284702494327197

[9]

GPT-Zero: https://www.latent.space/i/153133301/what-ilya-sees-in

[10]

O3击败地理猜谜大师级玩家: https://sampatt.com/blog/2025-04-28-can-o3-beat-a-geoguessr-master

[11]

1: https://www.latent.space/p/noam-brown#footnote-1-165741459

[12]

长周期RL数据: https://x.com/corbtt/status/1931055969112605107

[13]

Orion: https://www.latent.space/p/quasar

[14]

SG1要到12月才上线: https://x.com/vitrupo/status/1931312626572939595

[15]

Cognition说“不要构建多智能体”而Anthropic则指导“如何构建”: https://news.smol.ai/issues/25-06-13-cognition-vs-anthropic

[16]

许多: https://agenticspace.dev/multi-agent-or-not-context-first-insights-from-anthropic-and-cognition/

[17]

许多: https://blog.riloworks.com/its-the-dependency-graph-stupid-a-guide-to-agent-architecture/

[18]

许多: https://www.youtube.com/watch?v=WKVkNZ-mOPY

[19]

多智能体RL研究多年: https://x.com/search?q=from%3Apolynoamial%20multi-agent&src=typed_query&f=top

[20]

多智能体团队: https://x.com/swyx/status/1849239462406148514

[21]

弱到强泛化问题: https://openai.com/index/weak-to-strong-generalization/

[22]

备受好评的主题演讲: https://x.com/swyx/status/1926442332716466339

[23]

完整视频: https://www.youtube.com/watch?v=ZZC_xqRgcHo

[24]

击败所有扑克玩家: https://thegradient.pub/libratus-poker/

[25]

用LLM在《外交》游戏中跻身全球前10%: https://www.science.org/doi/10.1126/science.ade9097

[26]

个人赢得世界外交冠军: https://x.com/polynoamial/status/1909283427159097527

[27]

AIE世界博览会: https://www.latent.space/p/aiewf-2025-keynotes

[28]

1: https://www.latent.space/p/noam-brown#footnote-anchor-1-165741459

[29]

澄清: https://x.com/polynoamial/status/1935834722640560178



(文:AGI Hunt)

发表评论