深度｜前OpenAI首席研究官万字对谈：AGI真正到来时或显得平淡无奇

图片来源：Redpoint’s Al Podcast

Z Highlights

目前，我们确实看到许多新数据中心正在建设，比如Meta和其他前沿实验室的项目，尽管有些未被广泛报道。因此，想要实现GPT-4到GPT-5的完整跃迁，还需要时间。人们往往忽视了从GPT-3到GPT-3.5再到GPT-4的逐步迭代过程。接下来，我们可能会先经历一个计算力提升10倍的过渡阶段，而不是直接迎来下一代大模型。
可靠性比过去显得更加重要。我们可以用一个经验法则来理解：从90%的可靠性提高到99%，可能需要10倍的计算力，而从99%提升到99.9%，则需要再增加一个数量级。每提高一个百分点都需要巨大的模型性能飞跃。这种10倍的跨越通常需要1到2年的时间来完成。
今天一个PT-3级别的语言模型生成一个token的成本，已经比GPT-3刚推出时低了100倍。我相信Sora视频模型也会遵循相同的轨迹——我们将看到这些逼真、精美的视频生成不仅质量更高，而且成本几乎可以忽略。这种性能和成本的同步提升，将使视频生成技术变得更加普及和易用，真正改变用户的创作方式。
我其实对AGI有一个深层次的观点：它并不是一个单一的“瞬间”可以实现的目标。这些问题往往是“分形”的，也就是说，我们会看到越来越多的事情被自动化，但并没有一个明确的时刻能让我们宣布“AGI到了”。

Jacob Effron：Bob McGrew曾在OpenAI担任首席研究官长达6年半。几个月前，他选择离职，我们有幸成为他参与的首批播客之一。这次访谈让我们能够向他请教关于AI未来的方方面面。我们探讨了模型是否已经触及瓶颈、机器人模型、视频模型、计算机使用模型，以及Bob对未来技术发展时间表和能力的展望。此外，我们还讨论了OpenAI独特的企业文化、促进高效研究的关键因素，以及一些重要的决策节点和他如何亲身经历这些时刻。我们还聊到了为什么AGI（通用人工智能）的出现可能并不会带来与今天截然不同的体验。Bob也分享了他离开OpenAI的原因以及未来的计划。我相信大家一定会喜欢这期节目。那么话不多说，我们开始吧。

AI模型的演变和挑战：从GPT-3到GPT-4及以后

Jacob Effron：首先，关于模型能力是否遇到瓶颈，这是当前争议很大的一个话题。我们很想听听您的看法，您认为在预训练方面是否还有潜力可挖？

Bob McGrew：这是外界观察者和大型实验室内部人员视角差异最显著的地方之一。从外部来看，很多人可能是从ChatGPT发布时开始关注AI，随后六个月后，GPT-4上线，似乎一切都在快速加速，进展不断。但当GPT-4发布已经过去一年半了，外界开始质疑：为什么最近好像没有新成果？

事实上，预训练的进展需要极大的计算能力增长。比如，从GPT-2到GPT-3，再到GPT-4，这些跨越意味着计算力需要提升100倍。这种增长一部分来自硬件资源的增加，例如更多芯片和更大的数据中心；另一部分则依赖算法优化。然而，算法优化通常带来的提升是有限的，比如50%、2倍、或者3倍。根本上来说，这需要等到新数据中心的建成，而这通常是一个耗时数年的过程。

目前，我们确实看到许多新数据中心正在建设，比如Meta和其他前沿实验室的项目，尽管有些未被广泛报道。因此，想要实现GPT-4到GPT-5的完整跃迁，还需要时间。人们往往忽视了从GPT-3到GPT-3.5到GPT-4的逐步迭代过程。接下来，我们可能会先经历一个计算力提升10倍的过渡阶段，而不是直接迎来下一代大模型。

强化学习正在改变这一节奏。例如OpenAI的o1模型，相较于GPT-4，其计算力提升了100倍。虽然它没有被命名为GPT-5，但实际上可以看作一个新世代。接下来一个重要的问题是，预训练进展如何与强化学习技术结合，这将是一个值得期待的领域。

Jordan Segall：鉴于模型开发需要数年时间，您认为2025年的AI进展会像去年一样显著吗？还是说进展可能会放缓？

Bob McGrew：我认为2025年会有进展，但形式会有所不同。每一代模型都会面临上一代未曾遇到的新问题。即便数据中心建成，训练完成后仍需要时间来解决这些问题并优化模型。

以o1模型为例，其强化学习技术可以延长推理链，使模型生成更加连贯，相当于在答案中“压缩”了更多计算力。如果一个模型用几秒生成答案，而另一个用几小时生成答案，其实际计算能力差异可能达到1万倍。这种技术的突破在于，它不需要新增数据中心就能显著提高性能。

目前，o1模型已能将回答时间从几秒延长到几十秒甚至几分钟。而理论上，这种方法可以扩展到数小时甚至数天。挑战在于如何实现这种规模化推进，我认为这会是2025年最令人期待的进展方向。

Jacob Effron：关于推理时的计算能力，您提到o1模型已经应用于实际场景。我注意到您在推特中提到，为了充分释放新模型的能力，我们需要新的交互形式。能否进一步谈谈您是否看到了一些有趣的初步尝试？

Bob McGrew：当然。为了说明这个问题，我们可以回顾一下当前的状况。聊天机器人已经推出一段时间，目前用户主要使用GPT-4类模型，这些模型在回答简单问题时表现良好，比如“谁是罗马第四位皇帝？”或者“如何加热巴斯马蒂米饭？”.

然而，当我们讨论o1预览发布时，很多问题集中在“用户会如何使用这个模型？”以及“怎样充分发挥它的价值？”上。编程是一个很好的例子，因为编程是一个结构化的问题，解决时需要长时间推理且高度依赖逻辑。另一种应用是撰写政策简报或长篇文档，这些都需要逻辑一致性和连贯性。

o1的关键突破在于，它能够实现连贯推理链，并支持更复杂的行动规划和执行。这不仅限于思考问题，还包括制定和执行长期计划。这类模型的潜力远未被完全发掘，我相信我们很快会看到其他实验室推出类似的模型，进一步推动这种可能性的发展。

当我们考虑发布o1预览版时，出现了许多问题，比如：“人们会用这个模型做什么？他们是否会找到实际用途？”我认为这些问题非常重要——“我需要用这个模型做什么，才能真正发挥它的价值？”

编程是一个很好的应用场景。因为编程是一个结构化的问题，你需要在较长时间内逐步推进，而且这种任务高度依赖推理能力。另一个例子是撰写政策简报或长篇文档，这些内容需要逻辑清晰并且连贯一致。当然，大多数人不是程序员，他们的日常生活中可能并不需要完成这种类型的任务。但这个模型的核心突破在于：它能够保持连贯的推理链条，从而推进问题解决。这不仅仅局限于思考问题，还包括采取行动以及制定行动计划。

我对o1这种模型最感兴趣的，是它能够真正支持长期的行动执行。我相信不久之后，其他实验室也会推出类似的模型，进一步扩展这种能力。

“智能代理”在提高生产力和解决复杂任务方面的潜力

Bob McGrew：基本上来说，这些模型可以被看作是“智能代理”。尽管这个词已经被过度使用，以至于它的意义变得模糊。但我在生活中有很多任务，希望模型能帮助我完成，比如预定行程、网购、解决问题，并与外部世界进行交互。我认为我们需要解决的核心问题是：这种交互形式究竟是什么？我们该如何实现它？目前还没有人完全解决这个问题。

Jacob Effron：这确实非常有趣，也完全可以理解。我觉得人们对这些智能代理的潜力抱有很高期待——它们可以为个人和企业解决各种问题。那么，您认为实现这一目标的主要障碍是什么？显然，一些实验室已经开始了早期尝试，比如Anthropic推出的Computer use模型。还有哪些硬性问题亟待解决？

Bob McGrew：是的，有很多需要解决的问题。我认为最直接的一个问题就是可靠性。

假设我们先不谈行动，只是让一个智能代理为我执行任务，比如写代码。我可能离开5分钟或1小时，回来却发现它偏离了目标，或者犯了错误——这不仅浪费了时间，还可能影响我的工作效率。如果再加上实际行动，比如代理为我购买商品、提交代码审核请求，或者代表我发送电子邮件或Slack消息，如果它表现不佳，就会有实际后果——可能让我尴尬，甚至造成经济损失。

因此，可靠性比过去显得更加重要。我们可以用一个经验法则来理解：从90%的可靠性提高到99%，可能需要10倍的计算力，而从99%提升到99.9%，则需要再增加一个数量级。每提高一个百分点都需要巨大的模型性能飞跃。这种10倍的跨越通常需要1到2年的时间来完成。因此，我认为这是当前面临的首要挑战。

Bob McGrew：另一个重要的问题是，目前讨论的大多是面向消费者的应用场景，但如果考虑将这些模型嵌入企业环境中，就会出现完全不同的需求和挑战。这将涉及到一整套新的考虑因素。

Jordan Segall：这确实是一个有趣的观点。目前我们看到，很多企业正在与咨询公司合作部署这些技术。由于现阶段需要大量的指导，咨询公司也因此发展得很好。您认为这种依赖咨询的现象会持续一段时间吗？还是说未来会变得更加标准化，企业可以轻松地直接部署这些大型语言模型？

企业场景与方案

Bob McGrew：这是一个非常有意思的问题。我们先从头梳理一下，在企业中部署大型语言模型面临的核心问题是什么。

如果我们谈论的是自动化任务或让模型帮助你完成工作，模型需要足够的上下文信息。而在消费者应用场景中，这种上下文需求并不多，比如你喜欢红色，这没有太大复杂性。

Jacob Effron：感谢您选择红色作为例子！

Bob McGrew：但在企业环境中，你需要知道的信息则多得多。例如：谁是你的同事？你正在做什么项目？你的代码库是什么？团队尝试过哪些方案？大家喜欢什么、不喜欢什么？这些信息通常分散在Slack、文档、Figma等工具中。如何让模型访问这些信息？这可能需要通过一对一的集成来解决。

一种方法是构建一个连接器库，企业可以基于这些连接器来使用模型。这类似于Palantir的工作，他们的核心问题是将企业内部的数据集成起来。正因如此，像Palantir的AI平台（AIP）这样的技术非常有吸引力。这可能是一个路径，通过这些连接器形成一个整体平台。

另一种方法是采用类似Computer use的技术。与程序化的API集成不同，这种代理通过鼠标和键盘进行操作，涉及更多步骤。比如，它可能需要比程序化集成多10倍甚至100倍的操作指令或“token”。这又回到了核心问题：我们需要一个具有高度连贯推理链条的模型，能够在长时间内稳定推进任务。这恰恰是o1模型已经解决的问题之一。我相信还有其他方法可以实现这一点，但这将是未来一年中非常重要的技术突破之一。

Jacob Effron：您认为这最终会如何发展？我能想到的一方面是，显然一个可以在任何情况下使用计算机的通用模型非常有吸引力。但另一方面，要实现99.999%的可靠性可能会很困难，特别是因为过程中有太多可能出错的步骤。还有一种设想是，如果底层应用程序的API能够以某种方式开放，或者我们能为特定工具（比如Salesforce）打造专用模型，这些问题可能会简化很多。集成系统或许是一个巨大的优势，因为可以直接快速完成任务，而不是看着计算机在屏幕上一步步执行。

Bob McGrew：是的，我想未来可能会有多种方案并存。一些方案依赖集成，而另一些则可能使用Computer use作为备选方式。如果没有定制化的解决方案，可以先用这种方式，观察用户的实际需求，然后再开发更详细的集成方案。至于是否会出现一个专用的Salesforce的Computer use，我从技术角度看不太支持这个想法。因为本质上，这种情况下您利用的核心是数据。假设有人收集了一个关于如何使用Salesforce的大型数据集，如果Salesforce愿意将这些数据共享给Anthropic、OpenAI或Google，对它们来说更有利。每个应用提供商都会希望这些数据集成为基础模型的一部分，而不是为此开发专门的模型。因此，我认为没有必要为这种场景打造专门的模型。

Jacob Effron：这确实很有说服力。毕竟，在竞争激烈的领域中，如果你的竞争对手开放了他们的数据，使产品更易于使用，那你肯定也希望自己的产品同样具备这种优势。

Bob McGrew：是的，我也有些困惑为什么这样的生态系统尚未形成——一个企业将数据“注入”大型语言模型的生态系统。这就像Google的SEO优化一样，只不过是换了场景。

Jacob Effron：这是一个很有趣的观点。您认为实现广泛使用Computer use还需要多长时间？

Bob McGrew：我的经验法则是：你会先看到一个超级吸引人的演示，但它还不够完善，实际使用起来有点痛苦。再给它一年时间，它会变得好10倍。而10倍的提升虽然只是一个线性增量，但实际上是一个很大的进步，足以让它在某些有限场景中投入使用。再给它第二年时间，它可能会令人惊讶地高效，但你仍然不能完全依赖它，就像我们现在使用聊天机器人时仍需担心它们可能出现的幻觉错误一样。所以最终取决于你对可靠性的要求——任何能够容忍错误的场景都会更快实现自动化，而那些不能容忍错误的场景则需要更长时间。

Jacob Effron：回到Jordan最初的问题，确实很有道理。目前要将这些技术集成到合适的数据中并定义定制化的流程和工作机制需要大量的手动支持。那么，从一个优秀的Computer use模型到企业可以直接签约使用之间的那层过渡是什么样子的？

Bob McGrew：我认为这需要一些创业公司来定义这个过渡层。我们现在还不完全清楚答案是什么。一件有趣的事情是，当你有了像Computer use这样通用的工具时，它解决的问题会呈现出“分形难度”，也就是说它能解决很多问题，但总有一些关键问题很难攻克。这种情况下，我们可能需要为这些特定问题开发一个程序化的解决方案。因此，我认为未来一段时间内会是多种方法并存的状态。

随着Sora的推出，多模态AI的演变和挑战

Jordan Segall：我很好奇，您之前在研究领域负责最前沿的技术开发。我们刚才聊了推理时的计算能力，是否还有其他领域让您特别兴奋？

Bob McGrew：是的，我们聊过了预训练和推理时计算能力，另一个让我兴奋的领域是多模态技术的发展。今天Sora的发布在某种程度上标志着这个长期技术发展的顶点。从2018年左右发明大型语言模型以来，很明显我们可以将Transformers等技术应用到其他模态，比如视觉、图像生成、音频输入和输出。一开始，这些只是一些独立的模型，比如DALL-E和Whisper，但最终这些能力被整合到主模型中。唯一长期未能整合的模态是视频，而Sora首次展示了这一点。其他公司比如Runway也有类似的模型，而现在Sora已经正式发布。

视频模型与其他模态相比有两个有趣且不同之处。首先，生成图像时，用户通常只需要一个提示词就可以生成图像，偶尔可能会调整细节。但视频则完全不同——它是一个延续的事件序列，不能仅靠一个提示词完成。你需要一个完整的用户界面，还需要考虑如何将其发展成一个有时间线的故事。这是Sora发布时体现出的一个特点，我认为他们的产品团队在这方面花了更多时间思考。

另一个不同之处在于视频的训练和运行成本极高。虽然Sora生成的视频质量确实更好，但你需要仔细观察才能发现短时间片段中的改进之处。不过，现在Sora已经向所有“Pro账户”用户开放，包括无限制的慢速视频生成。当达到这样的质量和分发能力时，已经解决了两大核心问题，这将对其他竞争者形成很高的门槛。

Jacob Effron：您认为未来几年视频模型的发展会是什么样的？在语言模型领域，我们看到几乎每年模型都在以10倍的速度变得更便宜、更快。您是否预计视频模型也会有类似的改进速度？

Bob McGrew：实际上，我认为两者的类比非常直接。如果我们比较当前的视频模型和未来两年的视频模型，首先，质量会进一步提升。现在的视频质量已经很好了，比如可以生成倒影、烟雾等复杂效果。然而，挑战在于生成更长时间的连贯视频。Sora的产品团队开发了分镜功能，可以每隔5秒或10秒设置一个生成指导点，但从几秒钟的视频扩展到一个小时的视频依然是一个非常困难的问题，这将是下一代模型需要攻克的重点。

另一方面，正如语言模型的成本显著下降一样，我预计Sora等视频模型也会出现类似的趋势。未来两年内，视频模型的改进将使生成高质量视频的成本大幅降低。例如，今天一个GPT-3别的语言模型生成一个token的成本，已经比GPT-3刚推出时低了100倍。我相信Sora等视频模型也会遵循相同的轨迹——我们将看到这些逼真、精美的视频生成不仅质量更高，而且成本几乎可以忽略。这种性能和成本的同步提升，将使视频生成技术变得更加普及和易用，真正改变用户的创作方式。

Jacob Effron：我觉得一个AI生成的完整电影，甚至还能获奖，这简直是终极梦想。那么，让我大胆问一句：您觉得我们距离实现这个目标还有多远？

Bob McGrew：如果非要给个年份，我想说两年内可能就能实现。不过“获奖”其实有点像一个过低的标准。真正的问题在于：这部电影是你真的想看的吗？我认为我们会在两年内看到这样的作品，但它可能没你想象的那么令人印象深刻。你想看它的原因不会是因为视频生成本身，而是因为背后的导演有着独特的创意视角，并通过视频模型来实现了这个视角。尤其是，他们能够在这个媒介中做到传统拍摄难以实现的事情。我们可以想象——尽管我们不是导演，但有很多平面设计师可能会开始尝试。

Jordan Segall：确实，最近我们看到很多公司试图成为“AI领域的Pixar”，我们也一直在问这样一个问题：什么时候这种目标才真正可行？听起来比我们想象的要快得多。

Bob McGrew：是的，这是我的猜测。一旦技术达到可以进行演示的阶段，进展就会变得非常快，而在那之前的进展虽然缓慢，但并非不存在，只是外界看不到。

机器人领域发展状况与未来方向

Jordan Segall：让我们从视频转到机器人领域。您一开始加入OpenAI就是为了从事机器人相关的工作。我们很想了解您对这个领域的看法，以及它目前的发展状况和未来的方向。

Bob McGrew：这是一个很个人的问题。当我离开Palantir时，我的想法之一是机器人将是深度学习真正变得“现实化”的领域，不再只是一个网站上的功能按钮。因此，在加入OpenAI之前，我花了一年的时间深入了解机器人，并首次用深度学习写了一些与视觉相关的代码。这是一个非常有挑战性的领域。当时我认为也许只需要五年（这已经是2015年），但事实证明我是错的。然而，我现在觉得这个判断终于变得正确了。

我认为机器人将在五年内实现广泛但有限的应用。因此，现在是一个创办机器人公司的绝佳时机。尤其是基础模型的出现，这是一个巨大的突破，可以让机器人快速启动并以重要方式实现泛化。这背后有几个关键因素。显而易见的一点是，基础模型能够利用视觉信息并将其转化为行动计划，而这些能力几乎是“免费”附带的。一个稍微不那么明显但更有趣的方面是整个生态系统的发展。

现在我离开了OpenAI，花了一些时间与创始人们交流。其中一位机器人公司创始人告诉我，他们已经能够设置机器人与人对话，直接用语言指令控制机器人。这非常酷，也更简单了——你只需告诉机器人要做什么，它能大致理解并利用一些专用模型完成操作。这避免了之前必须在电脑前输入指令的繁琐过程，而是可以直接观察机器人的行动。

一个仍有待探索的关键问题是：我们应该通过模拟环境还是现实环境来进行学习？在OpenAI机器人团队的两年工作中，我们的主要贡献是证明可以通过模拟环境进行训练，并将其泛化到现实环境中。这种方式有许多优势，比如与直接对接生产系统相比，模拟环境测试更方便。不过，模拟环境对刚性物体（如硬件拾取放置任务）效果很好，但对柔性物体（如布料、纸板）表现较差，而现实世界中却充满了这样的挑战。因此，对于需要高度泛化的任务，目前唯一的方法还是通过现实环境中的演示来学习。不过，从最近的一些研究成果中可以看到，这种方法实际上也能非常有效地工作。

Jacob Effron：这确实令人好奇。尽管在机器人领域找到类似语言模型的规模定律并不容易，尤其是明确遥控操作所需的数据规模，但您认为我们距离“机器人ChatGPT时刻”还有多远？就是让人们看到一种直观、实质性的突破，并认为它的能力足够可靠？

Bob McGrew：任何关于机器人的预测都需要根据具体领域来考虑。我对机器人在大众消费领域的普及持悲观态度，因为把机器人放在家里可能会让人感到不安——机械臂是有潜在危险的，可能会伤害人，甚至危及儿童。虽然我们可以设计出避免这些问题的机械臂，但它们往往也会存在其他局限性。家庭环境非常开放、不受限制，而在零售或工作环境中，我认为五年内会有很多机器人投入使用。你现在可以看到，例如在亚马逊的仓库里，机器人已经解决了物流移动的问题，他们也正在开发拾取和放置任务的解决方案。我认为在仓库这样的领域，机器人将会快速普及，而不同领域会以逐步渗透的方式发展。至于机器人进入家庭的时间，我不会做出预测，但我相信五年内，我们将在日常生活中频繁与机器人互动，这在今天看起来可能还很奇怪。

Jacob Effron：显然，目前存在一些专注于机器人技术的公司，但机器人也利用了基础模型和语言模型的进步。您怎么看这些技术的未来？最终我们是否会有一个能“无所不知”的超级模型？

Bob McGrew：在前沿模型的层面，我认为未来公司会继续推出那些能够在他们所拥有的数据类型上表现最佳的通用模型。这是一个重要前提。但专业化模型真正的优势在于价格和性能的平衡。在过去一年中，前沿实验室在开发体积更小、价格更低但仍具有高度智能的小型模型方面取得了很大进展，这些模型可以非常低成本地完成类似聊天机器人的任务。

对企业来说，一个常见的模式是明确需要AI完成的任务，使用前沿模型生成一个庞大的数据库，然后通过微调一个更小的模型来完成这些任务。这种方式极其节省成本，例如OpenAI就提供这样的服务，其他平台上也可能有类似模式。虽然这些微调模型在应对客户服务时，如果遇到超出预设的脚本内容，可能表现不如直接使用前沿模型，但这在价格和性能的权衡中是企业愿意接受的。

正确的“悲观主义”

Jacob Effron：有件事我觉得很有意思。我们之前聊到一个关于AI进展的宏观观点——如果在2018年，我们预测到2024年会有现在这些模型能力，我们可能会以第一性原理推断出世界将完全改变，几乎无法与2018年的状态相比。然而，尽管你们确实对整个世界产生了巨大影响，但我不会说AI的普及已经完全改变了世界的运作方式。您觉得为什么会这样？

Bob McGrew：是的，我认为，如果让我重新阐述一下，AI的正确心态可能听起来有点奇怪，但应该是深深的“悲观主义”。

为什么进展这么慢？有人说AI带来了GDP增长的0.1%，但这更多是因为建设训练AI所需的数据中心的资本支出，而不是因为使用AI提升了生产力。所以，为什么AI的影响还没有显现在生产力统计数据中呢？这就像人们在1990年代谈论互联网时的情况一样。我认为原因有几个。

首先，2018的那个观点——只要AI能够与人交流、写代码，所有事情都会被自动化——有些过于乐观。这种想法有点像工程师被要求开发一个功能时的反应：“哦，这个功能我两周就能搞定！”但真正开始写代码后，会发现这项工作远比想象中复杂。即使是好的工程师，估计两周，可能计划出来需要两个月。而差的工程师可能完全无法实现。这也正是我们在深入了解AI时发现的：人类的工作远不只是一个单一的任务。

AI能自动化的是任务，而一个工作由许多任务组成。当你真正研究某项工作时会发现，大多数工作都有一些无法被自动化的任务。即使是编程，首先被优化的是样板代码，而最后难以自动化的部分往往是关于目标的明确表达和方向指引。所以，随着AI的普及，我们会发现越来越多类似的限制。

Jordan Segall：从这个角度出发，您觉得当前有哪些领域被低估了，应该获得更多关注？

Bob McGrew：一个答案是，我特别看好那些利用AI解决“无聊问题”的创业公司。比如，想象你经营一家公司，可以雇佣所有聪明的人来做一件超级无聊的事：检查所有支出，确保比价合理。如果你的采购团队都由像Elon Musk这样非常精明的人组成，你可能会省下很多钱。但现实是，这种工作会让聪明人感到厌烦并排斥这份工作。而AI是无比耐心的，它不需要无限聪明。所以，任何你希望用“耐心到极致”的人去做的事，都应该交给AI来实现自动化。

Jacob Effron：有意思的是，我一直认为咨询顾问的工作就是让聪明人解决无聊问题或服务于无聊行业。而先进的AI模型就像是让一个有天才IQ的人去解决那些你永远无法让聪明人涉足的问题。

Bob McGrew：这确实很有趣。是的，当我第一次听说关于AI提升生产力的研究时，比如在2020年，有数据显示效率提高了50%，我当时觉得不可思议，直到发现这些生产力提升主要体现在咨询行业。我当时想：“哦，原来是咨询顾问。”AI擅长处理琐碎事务，而咨询顾问的工作恰恰就是解决这些琐碎问题。所以也许我们不该对AI首先在这里取得成效感到意外。

Jacob Effron：是的，而且这些提升大多体现在表现较差的员工群体中。

Bob McGrew：没错，这一点其实让我抱有希望。因为如果你看表现较差的员工，他们具备一些难以被AI替代的技能——他们知道自己想要达成什么，但不知道如何写代码来实现。而当模型出现时，它能帮他们写代码。虽然模型无法决定目标是什么，但可以帮助他们更好地实现目标。这让表现较差的员工在工作中能有实质性的提升。

什么是AI时代优秀的研究人员与组织？

Jordan Segall：关于员工表现，这确实很有帮助。从研究人员的角度来看，您和一些世界上最优秀的研究人员合作过，您认为是什么让一名AI研究人员脱颖而出？

Bob McGrew：优秀的研究人员有很多种类型，专注于不同的事情。比如，Alec Radford，他发明了GPT系列和CLIP，可以说奠定了大型语言模型的基础，后来又扩展到多模态领域。他是那种在深夜独自坐在电脑前完成自己最佳工作的研究人员。而Ilya Sutskever和Jakob Pachocki（OpenAI的第一任和第二任首席科学家）则更偏向于有大局观和宏大愿景的人，他们通过协作为公司制定整体路线图。

但我认为所有顶级科学家共同的特质是坚韧不拔。比如，Aditya Ramesh（DALL-E的发明者）花了18个月甚至两年时间攻克一个问题。当时，他的目标是用神经网络生成一幅不在训练集中、完全原创的图像，以证明模型不仅是“记忆和复述”。他选了一个“滑冰的粉红熊猫”的画面，确信训练集中没有类似的图像，并开始了长时间的努力。

一年后，Ilya拿着一张模糊的生成图像给我看，说：“看，这就是最新进展！上面是粉红色，下面是白色，你能看到像素开始融合了。”尽管当时几乎看不出什么，但他坚持下去，最终取得了突破。每个真正攻克基础性问题的研究者都把这些问题视为自己的“生命之战”，并愿意为之努力数年甚至更久，直到成功。

Jacob Effron：那在组织这样一群研究人员时，您有哪些心得？

Bob McGrew：有趣的是，我能想到的最好类比其实来自Palantir的Alex Karp。他常说，工程师是艺术家，这非常贴切。真正优秀的工程师有自己想要创造的东西，代码是他们表达创意的方式。在Palantir，我们常说，让工程师修bug是必要的，但每次这样做，他们的“艺术家之心”都会感到难过。对于研究人员来说，这种艺术性更是成倍放大。

要组建一个研究团队，最重要的是不能压抑这种艺术性。他们对自己心中愿景的执着，是支撑他们忍受所有痛苦、将愿景变为现实的动力。研究管理不像传统的工程管理那样可以通过标准化流程实现，研究管理需要更高的投入和更个性化的支持。

Jordan Segall：您有幸在Palantir和OpenAI工作过，很多文章都提到Palantir的文化非常特别。我相信未来也会有许多关于OpenAI文化的文章，您觉得这些文章会写些什么？

Bob McGrew：其中一部分可能会谈到与研究人员合作的独特之处。另一件让OpenAI与众不同的事情是公司多次转型，甚至可以说是“重建”。我加入OpenAI时，它是一个非营利组织，目标是通过发表论文实现AGI。但我们很快意识到，这条路行不通。几位早期成员（比如Sam、Greg、我）都有创业背景，因此这条路径总感觉不太对劲。

后来，OpenAI从非营利转为营利，这是一次重大转型，也是公司内部非常有争议的决定，因为我们知道，必须与产品和商业化产生关联。与微软的合作是另一次重大的重建。这个决定也备受争议，因为合作意味着不得不与“BigTech”公司合作。再之后，我们决定不仅与微软合作，还要开发自己的产品，并最终推出ChatGPT。这些转型任何一次对一家初创公司来说都可能是决定性的，而在OpenAI，每18个月到两年就会发生一次这样的转型。

最终，OpenAI从一个“写论文”的非营利机构转变为“构建一个全世界都能用的模型”的公司。如果在2017年问我们什么是正确的使命，答案可能就是后者，但当时我们并不知道如何实现。我们只能通过不断探索，找到正确的路径。

Jacob Effron：是什么让你们能够如此成功地完成这些大转型？

Bob McGrew：我想，很大程度上是因为“必要性”。这些转型并非完全是主动选择的，而是因为生存的需要。例如，非营利组织资金耗尽，必须找到筹集资金的方法，因此转型为营利组织；与微软合作，是为了证明我们的模型是有价值的；而ChatGPT的推出，则是一次有意为之的尝试，但其中也有偶然成分，比如我们低估了其爆发力，决定不设等待列表，结果引发了全球用户的巨大反响。

Jacob Effron：您怎么看ChatGPT刚发布时的那段日子？

Bob McGrew：那段时间非常紧张。一开始，我们甚至不敢相信这真的会发生。我们急于调整资源，重新分配了一些研究计算力，还担心它会像DALL-E一样，只是昙花一现。但我始终坚信ChatGPT会比API更大范围地被接受，而事实证明我是对的。

对I的看法与未来

Jacob Effron：作为一位始终站在AI研究前沿的人，过去一年中，您对AI领域的看法有哪些改变？

Bob McGrew：有趣的是，我的观点没有太多改变。在GPT-3发布后的2020-2021年，对我们内部团队来说，未来几年需要做的事情其实非常清晰：模型会变得更大、更多模态，我们需要在语言模型中引入强化学习。过去几年的进展更像是实现了这些已知的方向，而不是突然发现了全新的路径。在某种程度上，现在的成果也可以说是“命中注定”。

Jacob Effron：展望未来，您怎么看预训练规模化和推理时计算能力的扩展？是否有可能单靠这两者“注定”能达到AGI？或者说，您怎么看待这个问题？

Bob McGrew：老实说，我很难清晰地定义AGI是什么。如果一定要说，我其实对AGI有一个深层次的观点：它并不是一个单一的“瞬间”可以实现的目标。这些问题往往是“分形”的，也就是说，我们会看到越来越多的事情被自动化，但并没有一个明确的时刻能让我们宣布“AGI到了”。相反，我更倾向于相信，当AGI真正到来时，它可能显得平淡无奇。或许我们会每天坐在自驾车里，去办公室指挥AI团，而同时感到：“嗯，这也没什么特别的。老板还是那么让人讨厌。”这可能就是我们的AGI未来——仍然像传统的办公室生活，盼着下午五点下班。

不过更严肃地讲，我已经有一段时间认为，解决“推理”问题是达到人类级别智能的最后一个根本性挑战。这也是OpenAI和其他前沿实验室的共同看法。我们需要解决预训练的规模问题、多模态问题，以及推理能力的问题。而一旦这些问题解决，剩下的就是扩展的问题。

但需要注意的是，扩展本身是一个巨大的挑战。几乎没有新的基础性想法，所有工作都集中在如何让现有的想法接受越来越大的计算规模。这是一个系统问题、硬件问题、优化问题、数据问题，也是预训练问题——所有这些问题的核心都是扩展。所以，从某种意义上说，我们的确“注定”要实现AGI，但这并不意味着这条路会轻松。

Jacob Effron：显然，关于模型能力扩展的社会影响，目前的讨论还处于初期阶段，其中可能会有许多值得深入探讨的议题。有哪些是您特别感兴趣或认为需要更多关注的？

Bob McGrew：我觉得最有趣的一点是，我们正在从一个“智能是社会关键稀缺资源”的世界，转向一个“智能无处不在且几乎免费”的世界。那么，接下来真正稀缺的生产要素会是什么？我猜是“行动力”（agency）。能够主动采取行动，知道正确的问题是什么，明确该追求的项目，这些问题可能会很难交由AI解决。这种能力将是人类需要重点发展的核心素质。并不是每个人都擅长这个，因此我们需要思考如何培养这种与AI协作的行动力。

Jordan Segall：您觉得这种情况是现在已经发生，还是未来会逐渐显现？

Bob McGrew：我觉得这种变化会非常连续。这是一条指数曲线，而指数曲线的特点是“无记忆性”，每个时刻都感觉自己在以相同的速度前进。

Jacob Effron：您觉得模型最终能否完全解决“行动力”问题？比如，如果让模型“创建一家公司”或“制作一部电影”，这些更根本性的目标，它是否能胜任？

Bob McGrew：当然可以尝试，但结果未必完全符合预期。以Sora为例，如果你给它一个模糊的提示，它可以生成一段视频，可能非常酷，甚至比你自己想象的更好。但这可能不是你真正想要的。所以，你可以选择更具体地与它交互，比如给出详细的提示，明确表达你想要看到的视频内容，并让它满足你或你的受众需求。我认为，这种张力无论AI么先进都会存在——如何填补空白空间决定了最终成果的质量。

Jacob Effron：您在用最先进的o1模型时，有哪些实际的应用场景？

Bob McGrew：对我来说，最常见的场景是和我8岁的儿子一起学习编程。他总喜欢问各种问题，比如前几天他问我：“什么是网络爬虫？它是如何工作的？”这就给了我一个机会，用一个短小的程序教他网络爬虫的基本原理，同时讲解网络如何运作。我使用o1模型来设计一段既简单又不引入过多新概念的代码，这让我能教他核心的网络概念，同时又适合他的年龄。这种互动让我深刻感受到技术的力量——“玩”其实是技术发展的重要组成部分。

Jordan Segall：从研究测试的角度看，每次有新模型发布时，您通常会依赖哪些核心评估指标？

Bob McGrew：这一点其实随着每代模型的变化而变化。以o1为例，早期我们关注的指标是Google-proof问答（GP QA），但到后来，这个指标已经不再有趣，因为模型已经完全达到了饱和点。每一代模型的研究重点决定了评估指标的选择。

不过，有一个始终有用的领域是编程。编程是一项结构化任务，许多人都能理解。无论是完成一行代码还是构建整个网站，它都提供了一个很好的标尺。目前，编程问题还远未被完全解决，我们还有很长的路要走。

Jacob Effron：您早期的职业生涯中曾研究博弈论等领域，现在AI模型在社会科学研究中有很多应用潜力。如果让您重新回顾当年的研究，您觉得现在可以用这些模型做什么？

Bob McGrew：首先，我对学术界的激励机制持保留态度，它有很多问题。我在设计OpenAI的组织结构时，参考了学术界的问题并设计了一个对立的模式。比如，学术界非常强调署名权，可能不愿合作以免稀释贡献。而我们采取了更类似初创公司的模式：设定明确的方向，给予研究人员足够的自由，同时鼓励合作，目标是构建一个全球可用的模型，而不是发表大量论文。

在社会科学领域，AI有很多潜力。比如，A/B测试本质上就是一种实验性社会科学。未来，我们可以利用AI模拟用户行为，进行更高效的测试和分析，而不是依赖昂贵且耗时的人类参与。

Jacob Effron：最后，您为什么选择在这个时候离开OpenAI？

Bob McGrew：在OpenAI工作八年，我觉得自己完成了许多最初的目标。我宣布辞职的时机并非巧合，刚好是在o1预览版发布后。当时，我们的研究计划，包括预训练、多模态和推理问题，已经取得了重大突破。工作很有挑战性，而当我感觉自己完成了使命，就觉得是时候把工作交给下一代研究者，他们会继续解决剩下的令人兴奋的问题。

Jacob Effron：离开后，您计划做些什么？

BobMcGrew：就像我离开Palantir后用两年时间探索自己感兴趣的方向一样，我会继续学习、交流和思考。我并不急于做决定，当前的重点是与有趣的人合作，探索未来的可能性。

Jacob Effron：这次对话非常精彩，我们学到了很多。非常感谢您愿意分享这些内容！最后，您还有什么想对听众说的吗？

Bob McGrew：如果你想了解我的最新想法，可以关注我的Twitter（@BobMcGrewAI）。最后，我想说AI的发展会持续下去，这将是非常激动人心的过程。虽然发展可能会改变方向，但它不会放缓。希望大家继续投身其中，一起见证未来！

Jacob Effron：再次感谢您！这次交流真的非常棒。

原视频：Ex-OpenAI Chief Research Officer: What Comes Next for AI？

https://www.youtube.com/watch?v=a0bEU83P8g8

编译：David

——-

（文：Z Potentials）

2025 年 6 月
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复