OpenAI姚顺雨：大模型下半场是产品的游戏，做研究也要有产品思维

明敏整理自凹非寺
量子位 | 公众号 QbitAI

AI趋势正在“中场休息”，在此之前训练＞评估，在此之后评估＞训练。

这是OpenAI员工、姚班校友姚顺雨给出的最新判断。

AI发展分为上下两阶段。上半场以模型和方法为中心，核心构建了模型和训练方法；随着AI技术成熟，下半场的重点转向如何定义有现实意义的任务、如何有效评估AI系统的表现。

这要求研究者要及时转变思维和技能树方向，可能要更接近于产品经理。

为啥会出现这种转变？

因为强化学习终于能泛化了。

在姚顺雨最新的blog中，他系统性阐释了如上观点以及背后思考。想法刚刚发布就得到了不少业内人士的认可：

我同意你的观点。评估中还有一点值得考虑：成本成为越来越重要的影响因素。

离线RL/无监督学习→在线RL学习策略。我们是不是已经准备好转型了？

值得一提的是，这篇文章也有AI参与了撰写。

这篇博文是基于我在斯坦福大学和哥伦比亚大学的演讲。我使用OpenAI深度研究来阅读我的PPT并打了草稿。

AI下半场是产品的游戏

姚顺雨表示，人工智能发展走向新阶段，我们的思维方式应该变一变了。

把重点从解决问题转移到定义问题，在新时代评估比训练更重要。

我们不仅要思考“我们能否训练一个模型来解决XX”，而是要思考“我们应该训练AI做什么？我们如何衡量真正的进步？”

为啥这么说？

先来看AI的上半场发生了什么。

AI上半场：方法为王

在AI发展的“前半场”，最有影响力的工作主要集中在模型和训练方法（如 Transformer、AlexNet、GPT-3），而不是任务或基准。即便是非常重要的基准数据集如ImageNet，其引用量也不到AlexNet的三分之一。

究其原因，是因为方法比任务更难、更有趣。

构建新算法或模型架构通常需要深刻的洞察和复杂的工程实践——比如反向传播算法、AlexNet、Transformer这样的突破；相比之下，任务的设定往往只是把人类的已有任务（如翻译、图像识别）转化为可度量的标准，技术含量相对较低。

没什么洞察力，甚至都没什么工程力的体现。

加之，任务容易定义但不够通用，而方法（如Transformer）却可被广泛应用到NLP、CV、RL等多个领域，从而产生跨任务的通用价值。

一个好的模型架构或算法可以在多个基准上“爬山”（hillclimb），因为它具有通用性和简洁性。这也是为什么“方法胜于任务”在这个阶段成为主导逻辑。

尽管这种以“方法创新”为主导的范式持续多年并催生了巨大突破，但这些方法的积累最终带来了范式转变的临界点——
这些基础能力的集成已经可以构建出“可工作的AI任务解法配方（recipe）”，也就意味着：我们终于可以认真考虑如何解决真实任务本身，而不仅仅是构建更强的模型。

强化学习里，算法是次要的

姚顺雨认为，配方有三要素组成：

大规模语言训练
计算与数据的规模化
推理与行动

具备这三要素即可产出稳定且强大的AI。

通过强化学习可以理解为何是这三要素。

强化学习的三大核心是算法、环境和先验知识。

长期以来，强化学习研究者大多主要关注算法，忽视环境和先验。但随着经验增长，大家发现环境和先验对实际效果影响巨大。

但是在深度强化学习时代，环境变得很重要。

算法的性能通常特定于它的开发和测试环境。如果忽视了环境，就可能建立一个“最优”的算法，但这个算法只是在特定情况下很强。

那为什么不首先找出真正想要解决的环境，然后再找最合适它的算法？

姚顺雨表示，这正是OpenAI最初的思路。

OpenAI最初的计划就是把整个数字世界变成一个可以用强化学习解决的“环境”，然后用聪明的RL算法来解决这些环境中的任务，最终实现数字通用人工智能（digital AGI）。

OpenAI在这个思路下完成了很多经典工作，比如用RL打Dota、解决机械手等。

但它并没有实现让RL解决计算机/上网的问题，RL Agent也无法迁移到其他环境，似乎差了点什么。

到了GPT-2/3时期，OpenAI意识到，缺的是先验知识。

需要引入强大的语言先验知识，才能解决在复杂环境中难以泛化的问题。这使得RL Agent在聊天或网页任务中有显著提升，如WebGPT、ChatGPT。

但这好像和人类智慧上仍旧有差别，比如人类可以轻松上手一个新游戏、哪怕是零样本，但是当时AI做不到。

影响泛化的关键是“推理能力”。

人类不是单纯执行指令，而是会进行抽象思考。比如：“地牢危险 → 我需要武器 → 没有武器 → 可能藏在箱子里 → 箱子3在柜子2 → 那我先去柜子2”。

姚顺雨说，推理是种“奇怪”的动作。

推理本身不直接改变世界，但其空间是无限组合的。在传统 RL 框架中，它是“不划算”的 —— 推理不像行动那样有即时反馈，反而会“稀释”奖励。

但如果把“推理”加入RL的动作空间，并结合语言预训练模型的先验，就可以带来极强的泛化能力。类似于：虽然你面对的是无限个空盒子，但你从过往经验中学会了如何在空盒子中识别有价值的选择。

所以，一旦有了好的语言预训练先验+合适的环境设计（允许语言推理），RL法本身反倒变得次要。

o系列、R1、Deep Research、智能体等，都是由此而来。

或许正如乔布斯所说，你无法预见未来的点点滴滴是如何连接的；只有回头看时，你才能把它们串联起来。

下半场要有新的评估规则

由此，配方改变了AI社区的比赛规则。

开发新模型→刷新基准→创建更难的基准→更强的新模型。

这种规则在AI发展的上半场是有必要的，因为在模型智能水平不够高时，提高智商通常会提高效用。

可问题是，尽管AI已经在各类基准测试（如围棋、SAT、律师考试、IOI 等）中超越人类，但这些成就并未真正转化为现实世界的价值或效用。

Jason Wei的一张图可以很好解释这一趋势，AI刷榜的速度越来越快，但是世界因此改变了吗？

姚顺雨认为当前的评估方式主要存在两方面局限，导致AI在解决现实问题上严重脱节。

1、假设任务是独立同分布的（i.i.d.）：
模型被要求独立完成每个任务，然后取平均得分。这种方式忽略了任务之间的连贯性和学习效应，无法评估模型长期适应能力和记忆机制的重要性。

2、假设评估过程应自动化且与人无关：
当前模型接收输入 → 完成任务 → 接收评分。但真实世界中，大多数任务（如客户服务、软件开发）都需要持续的人机互动。

解决之道就是重新设计评估方式，为下半场制定新的游戏规则。

姚顺雨认为创新的评估应该贴近现实世界任务、优化模型配方解决任务，形成新的正向循环。

这个游戏很难，因为它陌生，但是也很令人兴奋。

上半场的玩家解决视频、游戏和考试任务，下半场的玩家则利用智能创建有用的产品，建立起价值数十亿甚至数万亿美元的公司。

欢迎来到AI下半场！

姚班学霸、思维树作者

最后再来介绍一下本文作者姚顺雨。

他去年加入OpenAI，担任研究员，负责研究智能体。

他身上的关键字有：

清华姚班
姚班联席会主席
清华大学学生说唱社联合创始人
普林斯顿计算机博士

他的研究成果包括：

思维树（Tree of Thoughts）：让LLM反复思考，大幅提高推理能力。
SWE-bench：一个大模型能力评估数据集。
SWE-agent：一个开源AI程序员。

最后，想要阅读更原汁原味的版本，可戳：
https://ysymyth.github.io/The-Second-Half/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

不到一周！中国AIGC产业峰会观众正在火热报名中 🙋‍♀️

全部嘉宾已就位 🔥 百度、华为、AWS、MSRA、无问芯穹、数势科技、面壁智能、生数科技等十数位AI领域创变者将齐聚峰会，让更多人用上AI、用好AI，与AI一同加速成长～

4月16日周三，就在北京，一起来深度求索AI怎么用 🙌 点击报名参会

🌟 一键星标 🌟

科技前沿进展每日见

（文：量子位）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

明敏 整理自 凹非寺量子位 | 公众号 QbitAI

AI下半场是产品的游戏

AI上半场：方法为王

强化学习里，算法是次要的

下半场要有新的评估规则

姚班学霸、思维树作者

发表评论 取消回复

下载每时AI手机APP

明敏整理自凹非寺
量子位 | 公众号 QbitAI

发表评论取消回复