明敏 整理自 凹非寺
量子位 | 公众号 QbitAI
AI趋势正在“中场休息”,在此之前训练>评估,在此之后评估>训练。
这是OpenAI员工、姚班校友姚顺雨给出的最新判断。

AI发展分为上下两阶段。上半场以模型和方法为中心,核心构建了模型和训练方法;随着AI技术成熟,下半场的重点转向如何定义有现实意义的任务、如何有效评估AI系统的表现。
这要求研究者要及时转变思维和技能树方向,可能要更接近于产品经理。
为啥会出现这种转变?
因为强化学习终于能泛化了。
在姚顺雨最新的blog中,他系统性阐释了如上观点以及背后思考。想法刚刚发布就得到了不少业内人士的认可:
我同意你的观点。评估中还有一点值得考虑:成本成为越来越重要的影响因素。

离线RL/无监督学习→在线RL学习策略。我们是不是已经准备好转型了?

值得一提的是,这篇文章也有AI参与了撰写。
这篇博文是基于我在斯坦福大学和哥伦比亚大学的演讲。我使用OpenAI深度研究来阅读我的PPT并打了草稿。
AI下半场是产品的游戏
姚顺雨表示,人工智能发展走向新阶段,我们的思维方式应该变一变了。
把重点从解决问题转移到定义问题,在新时代评估比训练更重要。
我们不仅要思考“我们能否训练一个模型来解决XX”,而是要思考“我们应该训练AI做什么?我们如何衡量真正的进步?”
为啥这么说?
先来看AI的上半场发生了什么。
AI上半场:方法为王
在AI发展的“前半场”,最有影响力的工作主要集中在模型和训练方法(如 Transformer、AlexNet、GPT-3),而不是任务或基准。即便是非常重要的基准数据集如ImageNet,其引用量也不到AlexNet的三分之一。

究其原因,是因为方法比任务更难、更有趣。
构建新算法或模型架构通常需要深刻的洞察和复杂的工程实践——比如反向传播算法、AlexNet、Transformer这样的突破;相比之下,任务的设定往往只是把人类的已有任务(如翻译、图像识别)转化为可度量的标准,技术含量相对较低。
没什么洞察力,甚至都没什么工程力的体现。

加之,任务容易定义但不够通用,而方法(如Transformer)却可被广泛应用到NLP、CV、RL等多个领域,从而产生跨任务的通用价值。
一个好的模型架构或算法可以在多个基准上“爬山”(hillclimb),因为它具有通用性和简洁性。这也是为什么“方法胜于任务”在这个阶段成为主导逻辑。
尽管这种以“方法创新”为主导的范式持续多年并催生了巨大突破,但这些方法的积累最终带来了范式转变的临界点——
这些基础能力的集成已经可以构建出“可工作的AI任务解法配方(recipe)”,也就意味着:我们终于可以认真考虑如何解决真实任务本身,而不仅仅是构建更强的模型。
强化学习里,算法是次要的
姚顺雨认为,配方有三要素组成:
-
大规模语言训练 -
计算与数据的规模化 -
推理与行动
具备这三要素即可产出稳定且强大的AI。
通过强化学习可以理解为何是这三要素。
强化学习的三大核心是算法、环境和先验知识。
长期以来,强化学习研究者大多主要关注算法,忽视环境和先验。但随着经验增长,大家发现环境和先验对实际效果影响巨大。

但是在深度强化学习时代,环境变得很重要。
算法的性能通常特定于它的开发和测试环境。如果忽视了环境,就可能建立一个“最优”的算法,但这个算法只是在特定情况下很强。
那为什么不首先找出真正想要解决的环境,然后再找最合适它的算法?
姚顺雨表示,这正是OpenAI最初的思路。
OpenAI最初的计划就是把整个数字世界变成一个可以用强化学习解决的“环境”,然后用聪明的RL算法来解决这些环境中的任务,最终实现数字通用人工智能(digital AGI)。
OpenAI在这个思路下完成了很多经典工作,比如用RL打Dota、解决机械手等。
但它并没有实现让RL解决计算机/上网的问题,RL Agent也无法迁移到其他环境,似乎差了点什么。
到了GPT-2/3时期,OpenAI意识到,缺的是先验知识。
需要引入强大的语言先验知识,才能解决在复杂环境中难以泛化的问题。这使得RL Agent在聊天或网页任务中有显著提升,如WebGPT、ChatGPT。
但这好像和人类智慧上仍旧有差别,比如人类可以轻松上手一个新游戏、哪怕是零样本,但是当时AI做不到。
影响泛化的关键是“推理能力”。
人类不是单纯执行指令,而是会进行抽象思考。比如:“地牢危险 → 我需要武器 → 没有武器 → 可能藏在箱子里 → 箱子3在柜子2 → 那我先去柜子2”。
姚顺雨说,推理是种“奇怪”的动作。

推理本身不直接改变世界,但其空间是无限组合的。在传统 RL 框架中,它是“不划算”的 —— 推理不像行动那样有即时反馈,反而会“稀释”奖励。
但如果把“推理”加入RL的动作空间,并结合语言预训练模型的先验,就可以带来极强的泛化能力。类似于:虽然你面对的是无限个空盒子,但你从过往经验中学会了如何在空盒子中识别有价值的选择。
所以,一旦有了好的语言预训练先验+合适的环境设计(允许语言推理),RL法本身反倒变得次要。
o系列、R1、Deep Research、智能体等,都是由此而来。
或许正如乔布斯所说,你无法预见未来的点点滴滴是如何连接的;只有回头看时,你才能把它们串联起来。
下半场要有新的评估规则
由此,配方改变了AI社区的比赛规则。
开发新模型→刷新基准→创建更难的基准→更强的新模型。
这种规则在AI发展的上半场是有必要的,因为在模型智能水平不够高时,提高智商通常会提高效用。
可问题是,尽管AI已经在各类基准测试(如围棋、SAT、律师考试、IOI 等)中超越人类,但这些成就并未真正转化为现实世界的价值或效用。
Jason Wei的一张图可以很好解释这一趋势,AI刷榜的速度越来越快,但是世界因此改变了吗?

姚顺雨认为当前的评估方式主要存在两方面局限,导致AI在解决现实问题上严重脱节。
1、假设任务是独立同分布的(i.i.d.):
模型被要求独立完成每个任务,然后取平均得分。这种方式忽略了任务之间的连贯性和学习效应,无法评估模型长期适应能力和记忆机制的重要性。
2、假设评估过程应自动化且与人无关:
当前模型接收输入 → 完成任务 → 接收评分。但真实世界中,大多数任务(如客户服务、软件开发)都需要持续的人机互动。

解决之道就是重新设计评估方式,为下半场制定新的游戏规则。
姚顺雨认为创新的评估应该贴近现实世界任务、优化模型配方解决任务,形成新的正向循环。
这个游戏很难,因为它陌生,但是也很令人兴奋。
上半场的玩家解决视频、游戏和考试任务,下半场的玩家则利用智能创建有用的产品,建立起价值数十亿甚至数万亿美元的公司。
欢迎来到AI下半场!
姚班学霸、思维树作者
最后再来介绍一下本文作者姚顺雨。
他去年加入OpenAI,担任研究员,负责研究智能体。
他身上的关键字有:
-
清华姚班 -
姚班联席会主席 -
清华大学学生说唱社联合创始人 -
普林斯顿计算机博士
他的研究成果包括:
-
思维树(Tree of Thoughts):让LLM反复思考,大幅提高推理能力。 -
SWE-bench:一个大模型能力评估数据集。 -
SWE-agent:一个开源AI程序员。

最后,想要阅读更原汁原味的版本,可戳:
https://ysymyth.github.io/The-Second-Half/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
不到一周!中国AIGC产业峰会观众正在火热报名中 🙋♀️
全部嘉宾已就位 🔥 百度、华为、AWS、MSRA、无问芯穹、数势科技、面壁智能、生数科技等十数位AI领域创变者将齐聚峰会,让更多人用上AI、用好AI,与AI一同加速成长~
4月16日周三,就在北京,一起来深度求索AI怎么用 🙌 点击报名参会

🌟 一键星标 🌟
科技前沿进展每日见
(文:量子位)