前OpenAI研究员Kevin Lu 长文：别搞RL了，去做产品吧！

强化学习也将陷入死胡同。

昨天夜里，前OpenAI研究员Kevin Lu 发了一篇长文，直指当下AI研究的核心问题：我们都在错误的方向上努力。

他的观点很是犀利：

真正推动AI大规模进步的不是Transformer，而是互联网。

这话听起来像是在开玩笑。

但Kevin Lu给出了一个让人深思的论证：没有互联网提供的海量数据，就算有了Transformer，我们也造不出GPT-4。

数据才是AI的命脉，这个道理大家都懂，但研究者们却选择性地忽略了它。

Transformer是个分心的玩具

Kevin Lu提到了一个有趣的现象：自从GPT-4发布以来，已经过去了两年多，但我们很难感受到基础模型有什么质的飞跃。

为什么？

因为我们进入了一个新的时代：从计算受限转向了数据受限。

在计算受限的时代，更高效的架构确实能带来更好的性能。但现在，所有方法的性能都会趋同，因为瓶颈不在算法，而在数据。

Kevin Lu甚至大胆地说：就算没有Transformer，用CNN或者状态空间模型，我们也能达到GPT-4.5的水平。

但问题是，没有互联网，就算有Transformer，我们也造不出GPT-2。

互联网：AI的培养皿

Kevin Lu把互联网比作AI诞生的「原始汤」（primordial soup），这个比喻很是贴切。

互联网为next-token prediction提供了完美的数据源：

多样性

从小众语言到冷门粉丝文化，只要有人关心，就会在互联网上留下痕迹。这些内容最终都会被永远地刻进AGI的记忆里。

天然技能课程

从小学生的Khan Academy，到大学的MIT开放课程，再到前沿的arXiv论文，互联网自然地形成了一个从易到难的学习阶梯。

用户自发贡献

最关键的是，人们想要使用互联网。这不是研究员人工构建的数据集，而是活生生的人类智慧的记录。

Kevin Lu引用了Alec Radford在2020年的一次演讲：

每次我们构建数据集，就是把世界上其他所有东西的重要性设为0，把数据集里的东西重要性设为1。我们可怜的模型！它们知道得太少，却还有太多东西被我们隐藏了。

强化学习的困境

既然互联网是监督学习的完美搭档，那强化学习的「互联网」在哪里？

Kevin Lu认为这正是问题所在。目前的强化学习要么依赖于：

人类偏好（RLHF）

收集困难，噪声巨大，而且不同人的偏好可能完全相反。

可验证奖励（RLVR）

局限于数学、编程等狭窄领域，很难泛化到其他任务。

而研究者们在做什么？

还在调整Q函数的裁剪方式，研究新的时序高斯探索方法……

这些都不会带来真正的突破。

产品才是出路

Kevin Lu的核心观点是：

要创造强化学习的「互联网」，必须从产品入手。

他列举了几个可能的方向：

机器人技术

但面临奖励标注困难、形态差异、现实差距等挑战。

推荐系统

某种程度上是人类偏好的延伸，但更有针对性。

AI研究

让AI来训练AI，优化基准测试性能。

交易系统

有清晰的指标（赚钱），但你的RL智能体很可能会学会「不玩」。

计算机操作数据

类似Adept尝试的方向，教模型执行计算机操作。

但这些都还不够。Kevin Lu梦想的是一个像互联网一样丰富、多样、有经济价值的RL任务生态系统。

这需要的不是RL理论经验，而是产品思维。

研究与产品的协同设计

Kevin Lu特别强调了研究与产品协同设计的重要性。

互联网之所以完美，是因为：

它是去中心化的，任何人都可以贡献知识
它有自然的激励机制（点赞、广告收入）
它是经济可行的，便宜到人人都能用
人们真的想用它

这些特性不是研究员设计出来的，而是产品自然演化的结果。

AGI不应该只是在数学题上表现优秀，而应该真正改变人类的生活。

如果这是我们的目标，那么从一开始就应该考虑AGI的产品形态。

写在最后

Kevin Lu的文章，也让我想到了一个问题：

当所有研究者都在优化算法时，谁来优化数据？

互联网用了20年时间，创造了一个让AI得以诞生的数据海洋。现在，我们需要为强化学习创造同样的东西。

这不是一个技术问题，而是一个生态问题。

如Kevin Lu所说，未来五年或将由一次大规模的强化学习训练决定。

如果我们还在摆弄RL算法的小零件，而不是思考如何创造新的数据源，那我们可能会重蹈2015-2020年RL研究的覆辙——

做了很多研究，但都不重要。

所以，也许是时候从实验室走出来，去真实世界创造些什么了。

毕竟，改变世界的从来不是算法，而是产品。

Kevin Lu 原文

（文：AGI Hunt）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31