OpenAI姚顺雨:大模型下半场是产品的游戏,做研究也要有产品思维

明敏 整理自 凹非寺
量子位 | 公众号 QbitAI

AI趋势正在“中场休息”,在此之前训练>评估,在此之后评估>训练。

这是OpenAI员工、姚班校友姚顺雨给出的最新判断。

AI发展分为上下两阶段。上半场以模型和方法为中心,核心构建了模型和训练方法;随着AI技术成熟,下半场的重点转向如何定义有现实意义的任务、如何有效评估AI系统的表现。

这要求研究者要及时转变思维和技能树方向,可能要更接近于产品经理。

为啥会出现这种转变?

因为强化学习终于能泛化了。

在姚顺雨最新的blog中,他系统性阐释了如上观点以及背后思考。想法刚刚发布就得到了不少业内人士的认可:

我同意你的观点。评估中还有一点值得考虑:成本成为越来越重要的影响因素。

离线RL/无监督学习→在线RL学习策略。我们是不是已经准备好转型了?

值得一提的是,这篇文章也有AI参与了撰写。

这篇博文是基于我在斯坦福大学和哥伦比亚大学的演讲。我使用OpenAI深度研究来阅读我的PPT并打了草稿。

AI下半场是产品的游戏

姚顺雨表示,人工智能发展走向新阶段,我们的思维方式应该变一变了。

把重点从解决问题转移到定义问题,在新时代评估比训练更重要。

我们不仅要思考“我们能否训练一个模型来解决XX”,而是要思考“我们应该训练AI做什么?我们如何衡量真正的进步?”

为啥这么说?

先来看AI的上半场发生了什么。

AI上半场:方法为王

在AI发展的“前半场”,最有影响力的工作主要集中在模型和训练方法(如 Transformer、AlexNet、GPT-3),而不是任务或基准。即便是非常重要的基准数据集如ImageNet,其引用量也不到AlexNet的三分之一。

究其原因,是因为方法比任务更难、更有趣

构建新算法或模型架构通常需要深刻的洞察和复杂的工程实践——比如反向传播算法、AlexNet、Transformer这样的突破;相比之下,任务的设定往往只是把人类的已有任务(如翻译、图像识别)转化为可度量的标准,技术含量相对较低。

没什么洞察力,甚至都没什么工程力的体现。

加之,任务容易定义但不够通用,而方法(如Transformer)却可被广泛应用到NLP、CV、RL等多个领域,从而产生跨任务的通用价值

一个好的模型架构或算法可以在多个基准上“爬山”(hillclimb),因为它具有通用性和简洁性。这也是为什么“方法胜于任务”在这个阶段成为主导逻辑。

尽管这种以“方法创新”为主导的范式持续多年并催生了巨大突破,但这些方法的积累最终带来了范式转变的临界点——
这些基础能力的集成已经可以构建出“可工作的AI任务解法配方(recipe)”,也就意味着:我们终于可以认真考虑如何解决真实任务本身,而不仅仅是构建更强的模型。

强化学习里,算法是次要的

姚顺雨认为,配方有三要素组成:

  • 大规模语言训练
  • 计算与数据的规模化
  • 推理与行动

具备这三要素即可产出稳定且强大的AI。

通过强化学习可以理解为何是这三要素。

强化学习的三大核心是算法、环境和先验知识。

长期以来,强化学习研究者大多主要关注算法,忽视环境和先验。但随着经验增长,大家发现环境和先验对实际效果影响巨大。

但是在深度强化学习时代,环境变得很重要。

算法的性能通常特定于它的开发和测试环境。如果忽视了环境,就可能建立一个“最优”的算法,但这个算法只是在特定情况下很强。

那为什么不首先找出真正想要解决的环境,然后再找最合适它的算法?

姚顺雨表示,这正是OpenAI最初的思路。

OpenAI最初的计划就是把整个数字世界变成一个可以用强化学习解决的“环境”,然后用聪明的RL算法来解决这些环境中的任务,最终实现数字通用人工智能(digital AGI)。

OpenAI在这个思路下完成了很多经典工作,比如用RL打Dota、解决机械手等。

但它并没有实现让RL解决计算机/上网的问题,RL Agent也无法迁移到其他环境,似乎差了点什么。

到了GPT-2/3时期,OpenAI意识到,缺的是先验知识。

需要引入强大的语言先验知识,才能解决在复杂环境中难以泛化的问题。这使得RL Agent在聊天或网页任务中有显著提升,如WebGPT、ChatGPT。

但这好像和人类智慧上仍旧有差别,比如人类可以轻松上手一个新游戏、哪怕是零样本,但是当时AI做不到。

影响泛化的关键是“推理能力”

人类不是单纯执行指令,而是会进行抽象思考。比如:“地牢危险 → 我需要武器 → 没有武器 → 可能藏在箱子里 → 箱子3在柜子2 → 那我先去柜子2”。

姚顺雨说,推理是种“奇怪”的动作。

推理本身不直接改变世界,但其空间是无限组合的。在传统 RL 框架中,它是“不划算”的 —— 推理不像行动那样有即时反馈,反而会“稀释”奖励。

但如果把“推理”加入RL的动作空间,并结合语言预训练模型的先验,就可以带来极强的泛化能力。类似于:虽然你面对的是无限个空盒子,但你从过往经验中学会了如何在空盒子中识别有价值的选择。

所以,一旦有了好的语言预训练先验+合适的环境设计(允许语言推理),RL法本身反倒变得次要。

o系列、R1、Deep Research、智能体等,都是由此而来。

或许正如乔布斯所说,你无法预见未来的点点滴滴是如何连接的;只有回头看时,你才能把它们串联起来。

下半场要有新的评估规则

由此,配方改变了AI社区的比赛规则。

开发新模型→刷新基准→创建更难的基准→更强的新模型。

这种规则在AI发展的上半场是有必要的,因为在模型智能水平不够高时,提高智商通常会提高效用。

可问题是,尽管AI已经在各类基准测试(如围棋、SAT、律师考试、IOI 等)中超越人类,但这些成就并未真正转化为现实世界的价值或效用。

Jason Wei的一张图可以很好解释这一趋势,AI刷榜的速度越来越快,但是世界因此改变了吗?

姚顺雨认为当前的评估方式主要存在两方面局限,导致AI在解决现实问题上严重脱节。

1、假设任务是独立同分布的(i.i.d.):
模型被要求独立完成每个任务,然后取平均得分。这种方式忽略了任务之间的连贯性和学习效应,无法评估模型长期适应能力和记忆机制的重要性。

2、假设评估过程应自动化且与人无关:
当前模型接收输入 → 完成任务 → 接收评分。但真实世界中,大多数任务(如客户服务、软件开发)都需要持续的人机互动

解决之道就是重新设计评估方式,为下半场制定新的游戏规则。

姚顺雨认为创新的评估应该贴近现实世界任务、优化模型配方解决任务,形成新的正向循环。

这个游戏很难,因为它陌生,但是也很令人兴奋。

上半场的玩家解决视频、游戏和考试任务,下半场的玩家则利用智能创建有用的产品,建立起价值数十亿甚至数万亿美元的公司。

欢迎来到AI下半场!

姚班学霸、思维树作者

最后再来介绍一下本文作者姚顺雨。

他去年加入OpenAI,担任研究员,负责研究智能体。

他身上的关键字有:

  • 清华姚班
  • 姚班联席会主席
  • 清华大学学生说唱社联合创始人
  • 普林斯顿计算机博士

他的研究成果包括:

  • 思维树(Tree of Thoughts):让LLM反复思考,大幅提高推理能力。
  • SWE-bench:一个大模型能力评估数据集。
  • SWE-agent:一个开源AI程序员。

最后,想要阅读更原汁原味的版本,可戳:
https://ysymyth.github.io/The-Second-Half/


一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

不到一周!中国AIGC产业峰会观众正在火热报名中 🙋‍♀️

全部嘉宾已就位 🔥 百度、华为、AWS、MSRA、无问芯穹、数势科技、面壁智能、生数科技等十数位AI领域创变者将齐聚峰会,让更多人用上AI、用好AI,与AI一同加速成长~

4月16日周三,就在北京一起来深度求索AI怎么用 🙌 点击报名参会



🌟 一键星标 🌟

科技前沿进展每日见


(文:量子位)

发表评论