深度|OpenAI研究员Dan Roberts:AI主流认知将被打破,未来某个时点强化学习将完全主导整个训练过程

图片来源:Sequoia Capital

Z Highlights

  • 我们发现,当模型在测试阶段花更多时间思考时,其推理表现会显著提升,这打破了业界普遍依赖预训练算力的传统认知。

  • 如果我们向1907年的爱因斯坦提出一个关于广义相对论的问题,他需要8年才能回答;而 AI 的能力若按每7个月翻倍来推算,或许只需 9 年就能实现这样的科学发现。

  • 我们正在将强化学习从点缀配角变成主角,不是在预训练的大蛋糕上加樱桃,而是用超大号的RL樱桃砸向整个蛋糕本身

Dan RobertsOpenAI的研究员,前红杉资本成员,致力于推动AI的推理能力演化,推动从预训练转向以强化学习为核心的新范式。本文为DanAI Ascent峰会的公开演讲精要,由Sequoia Capital频道整理发布。

AI 推理能力的飞跃:从训练期走向测试期的思考

主持人:Dan Roberts曾是Sequoia Capital的团队成员,在过去两年半到三年之间,他持续在帮助我们理解“reasoning”这件事。我有大约一年半的时间是跟他面对面共事,从他身上获益良多。所以我特别期待,他能将这些见解传递给更广泛的群体。我想先分享一个去年的回忆片段,那是在AI Ascent峰会上。当时他即将从Sequoia Capital离职,加入 OpenAI,不过这事当时还未公开。当时AlfredSam正在台上发言,Alfred突然顺嘴一提:对了,顺便说一下,Dan要去OpenAI啦。我当时刚好看着Dan的表情……呃,确实相当难堪。但总之很高兴你已经顺利度过了那个阶段,并愿意来和我们分享这背后的原因。

Dan Roberts谢谢,其实你刚才讲的正是我原本想用来开场的内容。那么我直接切入正题吧。正如你们许多人知道的,去年九月我们在OpenAI发布了一个名为“o1”的模型。接下来我引用一张来自我们博客文章的图表,让我直接进入主题。

图片来源:Sequoia Capital

这张图展示的是机器学习模型的性能表现。纵轴代表某项数学推理基准测试的得分,而横轴才是关键,显示的是训练所需的计算量。左边这张图说明,模型性能会随着训练计算量的增加而提升,这一点做AI训练的人都很熟悉。但真正令人兴奋的是右侧这张图:它显示模型在测试阶段计算量提升时,性能也随之增强。我们教会它推理,而它也确实会花时间思考;而且思考时间越长,表现就越好。这太酷了,我们甚至把这句话印在T恤上。因为这不仅意味着训练时的进步,现在连测试时的“Compute Use”也成了性能提升的新维度。那么这意味着什么?我们拥有了一个真正能推理的模型。来做个思维实验:我们最近发布了一个更强大的推理模型:o3版本。由于我本人学的是物理,因此我们用物理问题来测试它,比如quantum electrodynamics(量子电动力学),而且它还能进行可视化。我们在纸上写了一个问题,你可能见过类似演示,它会开始思考,可以反复自我检验、不断聚焦细节。

它思考了一会儿,然后开始作答,并最终给出了正确答案。整个过程持续大约一分钟。顺便一提,我在博客文章发布前被要求复核这个结果,我花了整整三小时。虽然这项计算可以在四本教材中找到,但我仍得逐步推导每一步,确保每个负号都没出错,并确认它算得没错。所以我们能做什么?我们可以用一分钟时间完成非常复杂的计算,这已经足够令人惊叹。但问题是,我们要把这种能力带向哪里?让我们做一个更进一步的思想实验。谁最擅长思想实验?当然是Albert Einstein。那么我们就以他为主题吧。假设我们回到1907年,那时Einstein还未正式开始广义相对论的研究。我们给他出一道终极期末考题:关于广义相对论。顺便说一句,这个场景其实是GPT-4.5编造的,但我可以确认这其实是个非常合理的提问方向。当然我们不会真去问Einstein本人,而是会构建一个‘Einstein v1907超级高配版,确保它拥有最强的推理能力和最充分的计算资源,来帮我们回答这个问题。

重新定义范式:强化学习才是未来的主角

那我们会得到什么?爱因斯坦是个非常典型的视觉型思考者。他经常通过想象电梯中的自由落体等情境来推导物理原理。学习广义相对论(GR)时,你会接触到这类概念,比如橡皮膜上滚动小球的比喻模型,用来形象化引力和时空弯曲的关系。当然,他有时也会分心,比如会被量子力学的问题吸引注意力。我们的模型也会分心。图像开始变得像个黑洞。我也搞不清为什么它老喜欢把自己投射进这些场景。但这正是我希望用虫洞来呈现的黑洞效应。最终的结果是:GPT-4.5没能答出来,只有o3版本答对了。我在OpenAI的工作其实不是从事AI研究,而是专注于验证物理计算。但是重点在于:这个模型确实能得出正确答案。换个角度看,如果这个问题是交给爱因斯坦本人来解,他当然也能算出结果,只不过他需要花上八年的时间,正如他历史上花了八年才完成广义相对论一样。我的意思是,爱因斯坦会像历史上那样,在八年后提出广义相对论,也就能回答这个问题。而我们的模型,只需思考一分钟,就已经能复现教科书级别的复杂计算,甚至包括扰动修正项。但我们的目标远不止复制已有知识。我们希望这些模型能真正推动人类知识的边界,助力科学走向前沿突破。

说回上面那张图。左侧显示模型的性能随着训练时长的增加而提升。而要实现这种提升,关键在于一个核心手段:强化学习(Reinforcement Learning, RL。我们所要做的,是把训练规模推到极致。举个例子,一年前我们发布的 GPT-4.0模型,仅使用了预训练算力;但从01版本开始,我们开始引入测试阶段的算力,也就是RL算力。虽然这张图是示意性的,但趋势是清晰的。到了03版本,所用的RL算力可能更大。我们预计,未来某个时点,RL将完全主导整个训练过程。这其实是一个反主流的观点,但我们就是要强调这种范式的转变。熟悉AI研究的人可能认得这张图,它出自多年前的一份幻灯片,时间大概是2019年。

图片来源:Sequoia Capital

那张图虽然复杂,但我们现在已经可以用模型来帮我们总结出它的核心思路:在传统认知中,预训练是整个大蛋糕,而强化学习只是顶上的一颗小樱桃。这两种配色虽然巧合,却恰好贴切。但我们要做的,是彻底颠覆这个结构,不是在蛋糕上点缀樱桃,而是直接用一颗巨型的强化学习樱桃砸向整个蛋糕。那我们具体打算怎么做?很遗憾,这部分暂时不能透露。我们提交的幻灯片基本都被公关团队删掉了,甚至还有人担心连这一页被删除这样的备注页也要被删。还好,和我们对接的Brianna还算讲理。实际上,我们的计划已经非常明确:全面扩展算力规模。这意味着我们将筹集大约5000亿美元,在德克萨斯州阿比林购买土地、建设设施、安装计算设备。我们也将再次与曾经合作过的工程团队协同推进。我们的目标是训练出最强的模型,并通过它创造大规模收益,再将这些收入投入到新一轮的设施建设和设备扩容中,持续加码。而与此同时,我们也在探索所谓的规模科学(scaling science)这正是我目前在OpenAI的核心工作内容。

规模科学的终点:通向Einstein级 AI 的九年倒计时

图片来源:Sequoia Capital

这张图表来自我们关于 GPT-4的博客文章。虽然那是在我加入OpenAI之前,但左下角的这个点表示GPT-4在训练结束时的最终损失值。沿途的其他点则代表中间的实验结果,而图表用的是对数坐标轴,因此那些点的实际规模其实远比视觉上看起来更小。虚线部分代表的是模型预期表现的预测线。他们精准地命中了这条预测。换句话说,在开始训练这个前所未有的大模型之前,他们就已经准确地预知了它的最终效果。但随着测试阶段算力和强化学习训练等新方法的加入,原本的认知框架也必须被打破。我们要重新定义规模化计算真正的意义。这就是为什么我们需要规模科学:因为我们正在追求的,就是规模科学本身。正如播客主持人Dwares Patel指出的那样:今天的模型看起来就像白痴学者,它们具备强大的能力,却并没有真正发现广义相对论。也许症结出在我们的问题设计上。我们总是在问模型错误的问题,而在科研中,提问的方式往往比求解过程本身更重要。我们需要学会找到问题的真正核心。另一个可能的原因是:我们过度训练模型去解那些标准化的竞赛数学题,结果导致它们在不同知识领域的能力发展极不均衡。不管是哪种原因,现阶段的模型成果都可能未达预期。但关键是:我们仍在不断扩大规模,而这项工作一旦继续推进下去,必将带来令人惊叹的突破。

图片来源:Sequoia Capital

最后谈谈我对未来的看法。去年我曾参加AI巅峰会(AI Summit),希望今年还能再去。当时Constantine展示过这张图表的标准坐标版本,里面展示了一条趋势曲线:AI Agent能处理的任务时长,正以每7个月翻倍的速度增长。如果这个趋势持续下去,现在能处理1小时任务的模型,到明年可能就能处理23小时。当然我们都知道,AI领域的预测总是难以精确,但如果我们按照这条曲线外推,考虑爱因斯坦当年花了 年构思广义相对论,那么我们大约还需要16能力翻倍周期。也就是说,9年之后,我们或许就能拥有一个可以自主发现广义相对论的AI模型。谢谢大家!

原视频 9 Years to AGI? OpenAI’s Dan Roberts Reasons About Emulating Einstein
https://www.youtube.com/watch?v=_rjD_2zn2JU&t=20s
编译:Nicole Wang

请注意,本文编译自文末载明的原始链接,不代表Z Potentials立场。如果您对本文有任何想法或见解,欢迎在评论区留言互动探讨。

Z Potentials将继续提供更多关于人工智能、机器人、全球化等领域的优质内容。我们诚邀对未来充满憧憬的您加入我们的社群,与我们共同分享、学习、成长。

——-

(文:Z Potentials)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往