深度|清华姚班学霸、OpenAI姚顺雨:AI下半场从“算法竞赛”转向“效用定义”,重构评估框架,将技术能力转化为真实世界价值

图片来源:姚顺雨个人博客

Z Highlights

  • 方法往往比单一任务更通用、更具广泛适用性,这也让它们变得尤为宝贵。

  • 真正解决任务的有效配方的成分其实并不令人意外,包括:大规模语言预训练、规模化(数据和算力),以及推理与行动的概念。

  • 这意味着不仅要创造新的、更难的基准测试,更要从根本上质疑现有的评估框架,并创造出新的评估方式,这样我们才能被迫发明出超越现有配方的新方法。

  • 在上半场,玩家们解决的是视频游戏和考试,而在下半场,玩家们将通过将智能转化为有用的产品,打造出价值数十亿或数万亿美元的公司

姚顺是斯坦福大学自然语言处理研究员,OpenAI员工,专注于强化学习与语言模型融合研究。本文译自姚顺于2025年4月10日发布的英文博客《The Second Half》,内容整合了他在斯坦福课程CS224N及哥伦比亚大学前沿论坛的核心演讲观点。

我们正处于AI的中场阶段。几十年来,AI的核心一直是开发新的训练方法和模型。这条路奏效了:从在国际象棋和围棋上击败世界冠军,到在SAT和律师资格考试中超越大多数人类,甚至赢得IMO和IOI金牌。这些载入史册的里程碑——DeepBlue、AlphaGo、GPT-4,以及o系列模型——背后是AI方法的根本性创新:搜索、深度强化学习、模型规模化,以及推理。一切都在不断变得更好。

那现在究竟发生了什么变化?用三个词概括:强化学习终于奏效了。更准确地说:强化学习终于具备了泛化能力。经历了多次重大的绕行与一系列里程碑之后,我们终于找到了一个通用的有效配方,能够利用语言和推理解决各种各样的强化学习任务。哪怕是在一年前,如果你告诉大多数AI研究人员,一个统一的方法可以同时解决软件工程、创意写作、IMO级别的数学题、键盘鼠标操作、以及长篇问答,他们会嘲笑你在幻想。这些任务每一个都极其困难,很多研究者花整个博士阶段只专注于其中一个狭小领域。

但这一切已经发生了。那么接下来会怎样?AI的下半场,从现在开始,将从“解决问题”转向“定义问题”。在这个新时代,评估比训练更重要。我们不再只是问:“我们能否训练一个模型来解决X问题?”而是要问:“我们应该训练AI去做什么?我们又该如何衡量真正的进展?”要在这场下半场比赛中脱颖而出,我们需要及时地转变思维方式和技能结构,而这种转变也许更接近于一名产品经理的思维方式。

AI上半场——模型创新与基准测试的黄金时

要理解AI的上半场,不妨看看它的赢家们。你认为迄今为止最有影响力的AI论文是哪些?我做了斯坦福224N课程里的小测验,答案并不令人意外:Transformer、AlexNet、GPT-3,等等。这些论文有什么共同点?它们提出了一些训练更优模型的根本性突破。同时,它们之所以能够发表,是因为在某些基准测试上展示出了显著的性能提升。

但还有一个更深层的共同点:这些“赢家”都是训练方法或模型,而不是基准测试或任务本身。就算是可以说是最具影响力的基准之一ImageNet,它的引用量也不到AlexNet的三分之一。方法与基准之间的对比在其他地方就更极端了,比如Transformer的主要基准是WMT’14,其会议报告大约有1300次引用,而Transformer论文的引用量超过了16万。

图片来源:姚顺雨个人博客

这揭示了AI上半场的游戏规则:重点在于构建新的模型和方法,而评估与基准测试是次要的,尽管它们是让论文体系运转起来所必需的。为什么会这样?一个重要原因是,在AI的上半场,方法比任务更难也更令人兴奋。从零开始创造一个新的算法或模型架构,比如反向传播算法、AlexNet、或者GPT-3中的Transformer,需要非凡的洞察力和工程能力。相比之下,为AI定义任务常常显得更简单:我们只是把人类已经在做的事情(比如翻译、图像识别、下棋)转化成基准测试任务,不太需要深刻的洞见,甚至也不怎么需要工程能力。

此外,方法往往比单一任务更通用、更具广泛适用性,这也让它们变得尤为宝贵。比如,Transformer架构最终推动了计算机视觉、自然语言处理、强化学习等多个领域的进展,远远超出了它首次验证效果的那个数据集(第九届统计机器翻译研讨会)。一个优秀的新方法可以在很多不同的基准测试上“爬坡”,因为它足够简洁且通用,所以它的影响通常不会局限于某一个具体任务。

这个“游戏”几十年来一直行之有效,并催生了改变世界的思想和突破,而这些突破的表现形式,就是各个领域中不断攀升的基准测试成绩。那么,为什么这个游戏现在要改变呢?因为这些思想和突破的积累,已经在质的层面上带来了变化,我们终于找到了一个能够真正解决任务的有效配方。

突破性配方——语言预训练与强化学习的融合

那么这个“配方”到底是什么?它的成分其实并不令人意外,包括:大规模语言预训练、规模化(数据和算力),以及推理与行动的概念。这些听起来可能像是你在旧金山每天都会听到的流行词,但为什么要称它们为“配方”呢?

我们可以通过强化学习的视角来理解这个问题。强化学习常被认为是AI的“终极目标”,毕竟,从理论上讲,强化学习能够保证在博弈中获胜;从实践上看,也很难想象没有强化学习的超级智能系统(比如AlphaGo)。

在强化学习中,有三个关键组成部分:算法、环境和先验知识。长期以来,强化学习研究者主要关注的是算法(例如:REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO……),也就是Agent如何学习的智力核心,而把环境和先验知识视为固定的或者最小化处理的部分。比如,Sutton和Barto的经典教科书几乎全部讲的都是算法,几乎没有涉及环境或先验。

图片来源:姚顺个人博客

然而,在深度强化学习的时代,经验上已经非常清楚:环境的重要性非常大。一个算法的性能往往极度依赖于它所开发和测试的环境。如果忽视环境,你可能会构建出一个“最优”的算法,但它只能在玩具问题中表现出色。那么,为什么我们不先弄清楚我们真正想要解决的环境,再去寻找最适合这个环境的算法呢?

这正是OpenAI最初的计划。它创建了gym,一个面向各种游戏的标准化强化学习环境;随后推出了World of Bits和Universe项目,尝试将互联网或计算机本身变成一个可交互的游戏环境。听起来是个不错的计划,一旦我们把所有数字世界变成一个强化学习环境,用聪明的强化学习算法去解决它们,我们就拥有了数字世界中的AGI。

确实是个好计划,但它并没有完全奏效。OpenAI在这条道路上取得了巨大进展,成功地用强化学习解决了Dota、机械手控制等任务。但他们始终未能解决计算机操作或网页导航的问题,而且在一个领域中训练出的强化学习Agent并不能迁移到另一个领域,某些关键的东西缺失了。

直到GPT-2或GPT-3出现后,人们才发现,缺失的关键部分是先验。你需要通过强大的语言预训练,将通用的常识与语言知识“蒸馏”进模型中,这样模型才能被进一步微调,成为像WebGPT或ChatGPT这样的Agent,并且改变世界。结果发现,强化学习中最重要的部分,甚至可能不是RL算法或环境,而是先验,而且这些先验的获取方式完全可以与强化学习毫无关系。

语言预训练为对话提供了很好的先验,但它对控制计算机或玩视频游戏的能力却没那么强。因为这些任务离互联网文本的分布更远,而在这些领域上直接进行监督式微调或强化学习,泛化能力很差。我在2019年注意到了这个问题,当时GPT-2刚发布,我尝试在它之上做监督式微调或强化学习来解决文字冒险类游戏,CALM是世界上第一个通过预训练语言模型构建的Agent。但这个Agent需要数百万步的RL训练才能在一个游戏里“爬坡”,而且它无法迁移到新游戏中。虽然这正是强化学习的典型特征,对强化学习研究者来说也并不奇怪,但我觉得很违和,因为我们人类在面对一个新游戏时,常常能零样本上手,而且表现得相当不错。

然后我迎来了人生中的第一个“顿悟时刻”:我们之所以能泛化,是因为我们可以选择不仅仅去执行“去2号柜子”、“用钥匙1打开3号箱子”、“用剑杀死地牢怪物”这样的动作,我们还可以选择去思考,例如:“这个地牢很危险,我需要武器去对抗它。现在没有能看见的武器,所以我也许需要在锁着的箱子或柜子里找一个。3号箱子在2号柜子里,我得先过去并把它打开。”

图片来源:姚顺个人博客

思考或推理是一种奇特的“行动”,它并不会直接影响外部世界,但其空间却是开放的、组合上无限的。你可以思考一个词、一句话、一整段文字,甚至是一万个随机英文单词,但你周围的世界并不会立刻发生变化。在经典强化学习理论中,这种情况是“非常糟糕的交易”,会让决策变得几乎不可能。想象你需要从两个盒子中选一个,其中一个有100万美元,另一个是空的。你期望能获得50万美元。现在假设我增加了无限多个空盒子,你的期望收益就会变成零。

但如果我们将“推理”加入到任何强化学习环境的动作空间中,我们就能利用语言预训练带来的先验去进行泛化,并且能够为不同的决策灵活地分配推理时的计算资源。这是一件非常魔幻的事情,我在这里可能也没完全讲清楚,也许我之后需要专门写一篇博客来详细解释。你可以去读读ReAct这篇论文,了解关于Agent进行推理的原始故事,也可以看看我当时的心路历程。就目前而言,我的直觉性解释是:即使你增加了无限多个空盒子,你也在无数游戏和经验中见过这些盒子,选择它们的过程,其实在为你将来更好地选中装着钱的盒子做准备。而我抽象的解释是:语言通过推理,让Agent具备了泛化的能力。

一旦我们拥有了正确的强化学习先验以及合适的强化学习环境(把语言推理加入到动作中),结果发现:强化学习算法反而成了最不重要的部分。于是我们迎来了o-series、R1、deep research、会用电脑的Agent,以及未来将出现的更多突破。真是一个讽刺的剧情反转!过去那么多年,强化学习研究者总是极度关注算法,远远胜过对环境的重视,而几乎没有人关注先验,所有的强化学习实验基本都是从零开始训练的。但我们绕了几十年的弯路才意识到,也许我们一开始就应该彻底颠倒这个优先级顺序。

不过正如Steve Jobs说的那样:你无法预先把点点滴滴连起来,只有回头看时,才能将它们串成一线。

AI下半场——从基准竞赛到现实效用的范式转移

这个“配方”正在彻底改变游戏规则。回顾一下上半场的游戏规则:

  • 我们开发新的训练方法或模型,通过“爬坡”提升基准测试。

  • 我们创建更难的基准测试,并继续这个循环。

这个游戏现在正遭遇破坏,因为:

  • 这个配方基本上已经标准化并产业化了基准测试的“爬坡”,不再需要太多新的创意。随着这个配方的规模化和泛化,它能在不特别针对某个任务的情况下,提升你为某个特定任务设计的新方法5%,而下一个o-series模型可以提升30%。

  • 即使我们创建更难的基准测试,这些基准测试很快,而且越来越快就会被这个配方解决。我的同事Jason Wei制作了一张漂亮的图表来很好地展示这一趋势:

图片来源:姚顺个人博客

那么在下半场,我们还能怎么玩?如果新的方法不再需要,且更难的基准测试也会越来越快被解决,我们该做什么呢?我认为我们应该从根本上重新思考评估。这意味着不仅要创造新的、更难的基准测试,更要从根本上质疑现有的评估框架,并创造出新的评估方式,这样我们才能被迫发明出超越现有配方的新方法。这是一个挑战,因为人类有惯性,很少质疑基本假设,你只是理所当然地接受它们,而没有意识到它们其实是假设,而不是定律。

为了说明惯性,假设你发明了历史上最成功的评估之一,它基于人类考试。这个想法在2021年是非常大胆的,但3年后它已经饱和。那么你会怎么做?最可能的做法是创建一个更难的考试。再比如,假设你已经解决了简单的编程任务。那么你会怎么做?最可能的做法是找到更难的编程任务来解决,直到你达到IOI金奖水平。

惯性是自然的,但问题在这里。AI已经在象棋和围棋中击败了世界冠军,超越了大多数人在SAT和bar考试中的成绩,并且在IOI和IMO中达到了金牌水平。但世界似乎并没有发生太大变化,至少从经济学和GDP来看是这样。

我称之为效用问题,并认为它是AI面临的最重要的问题。或许我们很快就能解决这个效用问题,也或许不会。无论如何,这个问题的根本原因可能是表面上看起来非常简单:我们的评估框架与现实世界的框架在许多基本方面存在差异。举两个例子:

  • 评估“应该”是自动进行的,因此通常一个Agent接收到任务输入后,独立执行任务,然后获得任务奖励。但在现实中,Agent必须在人类的参与下完成整个任务,你不会只是给客服发一条超长的信息,等10分钟,然后期待着得到一个详细的回复来解决所有问题。通过质疑这种设置,新的基准测试被发明出来,目的是让人类真正参与(例如Chatbot Arena)或通过用户模拟(例如tau-bench)来参与评估过程。

图片来源:姚顺个人博客

  • 评估“应该”是i.i.d.的。如果你有一个包含500个任务的测试集,你会独立运行每个任务,平均每个任务的度量,然后得到一个总体度量。但在现实中,你是顺序地解决任务,而不是并行解决。一个Google的SWE随着对repo的熟悉度提高,解决google3中的问题会越来越好,但一个SWE Agent在同一个repo中解决多个问题,却不会因此而获得类似的熟悉度。我们显然需要长期记忆方法,而且确实有这样的技术,但学术界并没有适当的基准测试来证明这种需求,甚至缺乏质疑i.i.d.假设的勇气,而i.i.d.假设一直是机器学习的基础。

这些假设“一直以来”都是如此,在AI的上半场中,基于这些假设开发基准测试是可以的,因为当智能较低时,提升智能通常能提升效用。但现在,这个通用配方在这些假设下已经能够保证有效。所以,下半场新游戏的玩法是:

  • 我们为现实世界的效用开发新的评估框架或任务。

  • 我们用现有的配方来解决这些任务,或者通过创新的组件来增强现有的配方。继续这个循环。

这个游戏很难,因为它是陌生的。但它是激动人心的。在上半场,玩家们解决的是视频游戏和考试,而在下半场,玩家们将通过将智能转化为有用的产品,打造出价值数十亿或数万亿美元的公司。上半场充满了渐进的算法和模型,而下半场则在某种程度上筛选这些方法。通用配方会轻松击败你的渐进方法,除非你创造出新的假设,打破现有配方。那时,你就能进行真正改变游戏规则的研究。

欢迎来到下半场!

原文章:The Second Half

https://ysymyth.github.io/The-Second-Half/

编译:Hedy Liu

请注意,本文编译自文末载明的原始链接,不代表Z Potentials立场。如果您对本文有任何想法或见解,欢迎在评论区留言互动探讨。

Z Potentials将继续提供更多关于人工智能、机器人、全球化等领域的优质内容。我们诚邀对未来充满憧憬的您加入我们的社群,与我们共同分享、学习、成长。

——-

(文:Z Potentials)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往