
图片来源:Sequoia Capital
Z Highlights
-
AI的“三位一体”包括预训练、后训练和推理。25年预训练已经进入边际效益递减阶段,其真正杠杆在于架构的改进。后训练更关注模型的个性和智能表现。推理能力的训练则是为了引导AI自主摸索“链式思维”和“逐步思考”。
-
出于供求关系,Agent的价格会越来越接近Compute Use的机会成本,其普适性和性价比将颠覆传统昂贵人力领域。简单重复性的任务会由AI Agent完成,而真正复杂、需要人类理解和信任的服务,才会保持它的价值和稀缺性。
-
LLMs等于为机器人提供了一个语言接口,因此可以用更低的成本来描述任务。而且你还拥有非常强大的视觉编码器,这些编码器和智能系统深度绑定。这让机器人在执行通用任务时有了真正的先发优势。
-
编程的发展从指数曲线来看,进展一直都是持续的,但当它超过某个临界点时,影响会变得非常非线性。未来的发展会是一种混合模式:用户在IDE里进行传统的光标式编程工作,同时后台还有像Devon风格的Agent自动编码。不过目前还没有一种让人放心的方法,让Agent来理解代码库,仍然需要人类来做设计,高层次理解代码库。
-
AI应该让你成为你想做的事情上的专家,同时帮你减轻那些无聊、不想做的事情的负担。面对AI,人应该理解两样东西,第一是学习和解决问题的过程;第二是有想法、有项目,有相信自己能做到的信念,以及能够利用手头上的各种工具去解决问题的能力,这就是自主能动性。
Bob McGrew,OpenAI前首席研究官,主导推动GPT‑3、GPT‑4以及内部称为o1/o3模型的研发,提出预训练(pre-training)、后训练(post-training)和推理(reasoning)的“三位一体”模型。现为多家 AI 初创企业的顾问或投资人,持续推动AGI的落地。本次访谈视频由Sequoia Capital 在2025年6月17日发布,和Bob共同探讨了 从模型训练重点、Agent和机器人的未来发展、AI时代的教育心得与管理经验等主题,洞察人工智能的发展轨迹,并指出初创企业依然可以挖掘并构建可持续竞争优势的领域。
预训练、后训练和推理,未来如何发展?
Stephanie Zhan:欢迎来到Training Data。今天我们非常高兴邀请到Bob McGrew——OpenAI前首席研究官,带我们深入探讨frontier AI的幕后发展。Bob分享了预训练(pre-training)、后训练(post-training)和推理(reasoning)的“三位一体”概念,并解释了他为何认为我们可能已经发现了实现AGI所需的所有基本概念。你将了解到他为何认为未来的Agent将按Compute成本定价,从而削弱传统经济模式;以及为何即便是专有数据也会变得不再那么有价值——因为无限耐心的AI可以重构出替代版本。此外,Bob还分享了他对创业机会的非主流看法,以及为何他认为机器人技术在多年“为时尚早”之后,终于迎来了它的高光时刻。Bob,非常感谢你今天的到来!
Bob McGrew:能来这里真的很高兴。
Stephanie Zhan:我们正处在一个AI发展的非常有趣阶段。我们有一个全新的、极具美感的“三位一体”:预训练、后训练、推理。那么,你能帮我们展开讲讲——每一环节中还剩下哪些“alpha”?还有哪些潜力值得挖掘?
Bob McGrew:我认为我们会持续看到AI能力的提升。这种感觉——超级快、超级令人兴奋——过去五年一直如此,而且我觉得这种势头会持续下去,不会在这里遇到瓶颈。但真正的不同在于:2025将成为“推理之年”。推理(reasoning)是一项新技术。而每当你有了新技术,通常都会有一大堆可以继续优化的空间,比如Compute Use、数据的利用、算法效率的提升等等。这些就构成了“溢出效益”。
如果你回顾一下我们看到的那些令人难以置信的进展:比如o1 preview(2023年9月发布),仅仅六个月后到了o3(2024年4月)。与此同时,OpenAI也把我们多年来一直在推进的reasoning技术扩散到了Google、DeepSeek、Anthropic —— 这些都只发生在几个月内。
所以可以说,今年各大实验室的重点,毫无疑问就是推理。而这方面现在的“低垂果实”实在太多了。举个轻松的例子:如果你观察o1 preview和o3的最大区别,那就是——o1 preview还不能使用工具(tools)。o3能够在chain of thought(思维链)中使用工具,这一点其实很显然。当我们在训练o1的时候,我们就已经知道这是我们想要实现的能力,但当时确实很难落地,实施上有不少挑战。这个过程花了时间——花了六个月才真正完成并发布。推理的下一步,就不会像之前那样显而易见了。它将会困难得多。
所以,随着reasoning的逐步成熟,我们现在还能依赖的“技术溢出”会逐渐被吃完 —— 也就是说,能轻松提升的空间越来越少,进展也会变得越来越慢。
Sonya Huang:你刚才提到“并没有墙”。但现在Twitter上有一个很流行的说法,就是预训练(pre-training)已经撞墙了。你能多讲讲这背后的动态和现象吗?
Bob McGrew:是的,这是个非常好的问题,因为预训练并不会消失。但我们现在从预训练的实践中看到的情况是:它确实已经运行得非常好了,但同时我们也正进入收益递减的阶段。而这个“收益递减”是写在基本规律里的——因为一个模型的智能水平,在数学上是随着你使用的Compute呈对数线性(log-linear)增长的。也就是说:每提升一点智能水平,你就得投入指数级更多的计算资源。这意味着,当对一个大型模型进行预训练时,如果还想获得明显提升,就需要成倍地增加Compute,而这在资源和性价比上,已经越来越难以持续。
预训练(pre-training)现在的情况是:一次完整的预训练可能需要你整个数据中心运行好几个月。而当你要预训练下一个模型时,其实不能在同一个数据中心继续做这件事。当然,你可以在一定程度上依赖算法效率(algorithmic efficiency)的提升来改进,但从根本上说,你得等到有了新的数据中心才行。而建一个新数据中心,不是像现在做reasoning的优化那样六个月就能完成的事情,这往往需要数年时间。但这并不意味着预训练就变得没用了。事实上,2025年预训练的真正杠杆,是在于架构的改进。即便你现在主要在做reasoning的优化,你依然需要改进预训练:比如提升推理时的效率(inference-time efficiency),支持更长的上下文,或更高效地使用上下文。但一旦你换了新的架构,那你就必须从头开始进行预训练,然后再进入完整的reasoning优化流程。这就是现在预训练的角色:它仍然非常重要。它现在只是在整个流程中承担了不同的角色。
Stephanie Zhan:你能帮我们详细讲讲后训练还有哪些待挖掘的空间吗?
Bob McGrew:好的,后训练非常有趣,因为预训练和推理都聚焦于提升智能水平,而且它们遵循非常明确的规模定律(scaling law):你投入越多的Compute,智能水平就越高。但后训练就不一样,它并不是这样简单线性的关系。后训练更多关注的是模型的个性(personality)和智能表现(intelligence),这是一个比较“细腻”的问题。但如果你在这方面做得更好,结果却非常具有普适性,可以应用到各种领域。比如你在数学领域训练模型,结果发现它也能提升法律推理的能力。
但模型个性是一个复杂的问题。你实际上需要投入大量的人力去思考:什么才是一个好的个性?我希望这个Agent以怎样的方式去行动?这更像是一个需要经过多年与人互动的训练过程。现在,将对Agent性格的规范转化为真正有吸引力的个性,是一个非常难的研究难题。
提到后训练,我会想到像OpenAI的Joan Jiang,或者Anthropic的Amanda Askew这样的人,他们花了大量时间去精心打造这些模型个性。而他们其实不是传统意义上的研究者,而更多是拥有深刻人性理解的产品经理或相关人员。
Stephanie Zhan:有没有更多类似这样专注于模型个性打造的角色?
Bob McGrew:我来说点可能有争议的观点:我其实认为并没有更多类似的角色。如果你眺望2030年,或更远的2035年,回头看看那些创造越来越多智能所必需的基本概念,也许那才是我们真正需要关注的核心。也许那个时候,我们谈的已经不仅仅是AGI了,可能是某种全新的东西。我认为你们会提出语言模型的理念,基于Transformer架构,强调对这些语言模型进行大规模预训练的想法,也就是GPT-1和GPT-2的基本框架。然后是推理能力的引入,并且逐步融合越来越多的多模态能力。即使到了2035年,这些核心趋势之外,我们也不会看到真正全新的突破性方向。
如果你回顾到2020年,那时GPT-3刚刚完成训练。想象一下自己当时坐在OpenAI的办公室里,虽然还没有正式发布GPT-3,但大家都知道发生了一场“划时代”的事件。Dario Amodei、Ilya Sutskever、Alec Radford等人都坐在同一个房间里,盯着这个模型。内部其实很清楚下一步的路线图是什么。从GPT-3进化到GPT-4,通过增加预训练规模是绝对关键的。我们也清楚需要不断增强多模态能力(multimodality),最终目标是打造一个能够使用计算机的模型。
同时,我们也开始做一些测试时计算(test time compute)的实验。2021年,在Anthropic团队成员离开后,OpenAI真正开始发展“reasoning”的理念。有趣的是,有时候朋友们会问我,Anthropic发布Compute Use的时候,我是不是早有预料。我会说,实际上我们在他们离开之前就是一起在研究这方面的内容。当时参与那个项目的几个人中,有一个去了Anthropic,另一个留在OpenAI并开发了Operator。这一过程花了很多年时间,直到多模态能力成熟到足够的程度,才能实现这样的突破。那时,这对我们来说是非常明显的方向。
从现在开始,虽然还有非常重要的规模扩展,但基本思路和路线已经十分清晰。这些理念的进一步发展和完善非常重要,同时也极其困难,需要大量的脑力投入,绝非易事。但我认为,如果我们从2035年回望过去,不会看到什么新的、根本性的突破。我说得可能是对的,但同时也希望自己错了——如果错了,肯定会更有趣。不过,这个问题还得拭目以待。
Sonya Huang:这是个很大胆的观点。我们就等2035年再来看结果,关于reasoning,我也很好奇。感觉OpenAI在这方面确实投入很大,可能比其他团队更早全力押注这个范式。现在大家都有了reasoning模型。你当初在reasoning里看到了什么,促使你们这么快、这么坚定地投入进去?
Bob McGrew:嗯,实际上,reasoning就像是那个“缺失的拼图”。用预训练训练出来的模型,虽然对如何回答问题有一种直觉性的感知,但如果我让你去乘两个五位数的数字,作为人类,这完全在你能力范围内。可如果让我你立刻做出计算,你可能做不到。因为作为人类,我们有一个自然的能力——在回答之前先思考,拿出一张“草稿纸”,一步步推理解决问题。而初期的模型,甚至像GPT-3,都没有这个能力。
后来我们开始看到这种能力的苗头,比如“逐步思考(thinking step by step)”,还有“链式思维(chain of thought)”的理念。我们能够训练模型,让它自己学会如何引导这一链式思维,而不仅仅是通过模仿人类思维在公开数据中的表现。这非常强大,我们知道它会比单纯的预训练更有力量。因为,实际上,人类的思考过程存在于脑中,而模型并无法直接访问这些过程。大部分现有数据都只反映了最终的结果,而你无法看到那中间的思考链路。所以模型必须自己摸索这条链路。这就是为什么reasoning至关重要。
Stephanie Zhan:你之前提到,reasoning方面可能还有更多内容等待我们去发现。你觉得我们现在对那些内容有比较清晰的认识吗?还是说我们还处在非常早期的研发阶段?
Bob McGrew:我觉得现在在reasoning领域,如果你真正在第一线工作,你会看到很多新的想法和对已有方法的改进。但如果你是在外部,或者不是在前沿实验室的话,可能就看不到这些进展了。这和我们以前看到的情况类似——曾经学术实验室可以取得巨大进展,但后来我们看到学术论文时,才意识到他们其实是重新发现了我们很久以前就发现的东西。现在在这个领域投入的精力非常大,进展很密集。所以,虽然确实还有很多东西待发现,但那些可不是我们随便聊聊就能理解的简单点子。
Agent的普适性与性价比
Stephanie Zhan:你最近在推特上谈到了Agent。你提到的观点非常有意思:Agent会非常强大,但由于竞争,价格会压到仅等同于Compute Use的成本。既然如此,你怎么看现在那些正在打造Agent的新创公司和企业,他们的机会在哪里?
Bob McGrew:是的,我的意思是,关于Agent这件事,人们通常会想,“我打算开发一个Agent”,然后他们会看这个岗位的人类薪酬是多少。比如说,你想开发一个AI律师,然后你会觉得律师的报酬很高,所以你可以给你的AI律师定一个很高的价钱。
Stephanie Zhan:几万美元。
Bob McGrew:完全正确。但律师之所以昂贵,是因为他们的时间稀缺——毕竟,能经过那种训练的人数有限。但是,当你把这个变成一个AI模型后,实际上就有了无限数量的“律师”,时间不再稀缺。也许你用你的AI律师创业公司能领先一时,但底层用的还是同样的前沿模型。其他创业公司随时可能进来竞争,把你的优势稀释掉。所以我们应该预期,Agent的价格会接近其Compute Use的机会成本。
Stephanie Zhan:很有意思,因为你实际上改变了供给——现在你拥有了无限供应的最高能力智能,无论在哪个领域都是如此。
Bob McGrew:你说得很对,这其实是个两面性的故事。一方面,确实对创业公司来说,赚钱变得更难,因为底层的AI能力几乎无限供应,竞争非常激烈;但另一方面,这正是我们希望看到的未来。我们希望基础服务变得普惠且便宜,让每个人都能轻松获得律师等专业服务,不再被高昂的费用阻挡。真正稀缺且昂贵的,反而应该是那些基于深度个人关系和专业经验的咨询,比如人类律师提供的针对具体业务挑战的深度法律建议。
换句话说,简单重复性的任务会由AI Agent完成,而真正复杂、需要人类理解和信任的服务,才会保持它的价值和稀缺性。这样的未来,应该是我们都愿意生活和期待的。
Sonya Huang:你觉得应用公司靠卖Agents能赚钱吗?你会建议我们投资哪些方向?
Bob McGrew: 是的,也不是。先稍微回溯一下,人们经常讨论价值究竟积累在哪里——是在model层,还是在应用层?如果你看model层,那竞争非常激烈。每家公司都有一个前沿模型。有些前沿模型能做其他前沿模型做不到的事情,但总体来说,它们都非常强大。如果你是企业用户,可以很容易地替换它们。而在前沿模型之外,所有用来回答大部分问题的模型都是蒸馏过的,它们的竞争也非常激烈。所以考虑到训练模型的成本,这并不是一个很好的生意。那么,训练模型的意义到底是什么呢?训练模型的意义在于给你提供选择,给frontier labs提供在即将出现的应用层那些有价值领域里的选择权。比如ChatGPT,这就是一个很好的生意,对这方面竞争非常激烈。我觉得现在可能已经太晚了,想取代ChatGPT很难,除非你做一些非常不同的事情。
编码也是一个所有frontier labs现在都非常关注的领域。我认为你可以和frontier labs竞争,但你得做一些不一样的东西,不只是你一个人和电脑对话,或者在电脑上完成某种个人生产力任务,而是涉及更多人,涉及企业的东西。我认为,你们业务的护城河还是那些传统的护城河:网络效应、品牌和规模经济。所以应该找到一个能带来网络效应的Agent,而不仅仅是一个在市场上价格很高的东西。
机器人与基础模型的市场机会
Stephanie Zhan:有没有哪些领域可能超出frontier labs想要创新和构建的范围,但你认为这些领域很有意思,也愿意去探索?我们已经看到有科学家、律师、研究分析师、具备Agentic能力的软件工程师。你还在关注哪些其他领域呢?
Bob McGrew:就我个人而言,我对机器人非常感兴趣。因为我觉得机器人目前并不算是frontier labs路线图上被放弃的方向,但它距离实现还有一定距离。对我来说,这个阶段感觉就像几年前的AI一样。所以我认为现在是像Skilled、Physical Intelligence这样公司的好时机,或者说是创立一家新的机器人公司的好时机——当然,不是去和这两家公司直接竞争,而是做一些不同的、独立的事情。我觉得机器人领域正处于研究的最后阶段,距离商业化只有几个月到几年这样的时间,所以我觉得这非常有趣。
Sonya Huang:现在为什么是机器人发展的好时机?你觉得发生了什么变化?比如大家都知道OpenAI很早就有机器人项目,那你觉得现在和过去相比,发生了哪些关键变化?
Bob McGrew: 其实在Palantir和OpenAI之间,我自己也曾想创办一家机器人公司。早在2016年,我就做到了让机器人通过视觉系统学会下跳棋。
Sonya Huang:它能非常好地识别跳棋棋子。
Bob McGrew:它能够抓起跳棋棋子,并把它们移动到棋盘上的不同位置。我的结论是,这件事既有趣又超级酷,但距离任何形式的商业化还非常遥远。当我们在OpenAI进行机器人研究时,动机并不是商业化,而更多是为了展示机器学习的力量,而我们当时的一些想法后来也被应用到了LLMs中。但我认为真正改变的是,现在有了LLMs,机器人拥有了语言接口,这样你就可以用更低的成本描述任务。同时,还有非常强大的视觉编码器,这些编码器与智能系统紧密结合。这让机器人有了处理通用任务的“头部优势”。我们花了多年时间解决一个具体问题,比如教机器人操控魔方,而现在像Physical Intelligence这样的公司,可以用几个月时间解决各种各样的问题,比如叠衣服、搬运纸箱、包装蛋托。这些能力之所以得以实现,是因为它们建立在已有的前沿模型基础之上,利用了过去十年我们构建的完整技术和研究体系。
Sonya Huang:是的,我想回到你刚才提到的那个关于“价值在哪里”的观点,我非常喜欢你把基础模型看作是在应用层中拥有选择权的这个框架。你觉得基础模型最终会赢得应用市场多大份额?
Bob McGrew:我会从一个稍微不同的角度来看这个问题:作为一个创业公司,哪里是安全的赛道,哪里又会被frontier labs碾压?我认为比较安全的领域,是那些需要在模型之外对某些东西有非常深入理解的领域。很多企业业务其实就属于这种性质。比如说,Palantir AIP就非常符合这个特点,它不是一个模型公司,而是一个站在模型之外、与企业其余部分互动的系统。我投资的一家公司Distill也是类似的方向,他们打造了AI系统,帮助企业提取内部的上下文信息,输入到模型中,进而辅助决策。这些事情,frontier labs通常不愿意去做。frontier labs看的业务问题是,如何训练一个模型去做一些新的事情。而如果你观察所有这些企业,每一个都是非常小的问题,单独为它们训练专门的模型,对OpenAI或Anthropic来说根本不值得。但如果你反过来想,思考围绕模型构建什么样的系统,如何利用模型来简化上下文的输入,顺利输出结果,那么突然间这就是一个大问题。我认为这是一个巨大的机会。
Stephanie Zhan:Distill和Palantir的努力为那些企业公司解决了哪些具体的用例和问题?
Bob McGrew: 现在很多情况下,你会看到的是,大家试图自动化某些已有的工作流程。比较简单的情况是,这些工作流程属于受监管的行业,比如医疗保健领域。可能你要和保险公司打交道,这些工作流程非常严格规范,公司非常重视对流程的忠实执行。这并不意味着你可以直接告诉AI“去读临床指南,然后做出决策”,但通过一个转换过程,可以让AI达到能够执行这些工作的水平。这就是相对容易实现的“低垂果实”。
更高一层的情况是,假如你在处理一个非受监管行业或者流程不那么严格规范的场景,你想自动化一些劳动密集型的过程。那么第一步就是让这些工作变得“可读化”。如果你去找某个人,问他们描述自己的工作,很多时候,他们的经理都不知道他们具体做什么,他们自己也不完全清楚。他们能举一些例子,但无法给出一个完整的工作流程,因为实际上他们并没有遵循一个固定的流程,对吧?我觉得很多这类问题就是这样的表现。举个例子,这其实就是Distill做的事情——和企业合作,帮助他们整理已有的数据,利用AI对员工进行访谈,将这些内容系统化,使得AI模型能够真正执行这些工作。
专有数据的运用和训练价值
Stephanie Zhan:这真的很有趣。这也跟我想问你的另一个问题有关,就是关于专有数据的。我看到你发推时感到有些意外,但对你提出的问题非常感兴趣:你的专有数据相比竞争对手那些“无限智能、无限耐心”的Agent从公开数据中推断出来的信息,会有多大价值?你能帮我们详细展开讲讲吗?
Bob McGrew:好的,事情的起点是几年前,当时业界对训练行业垂直领域的专属模型非常感兴趣。比如金融公司会说:“我们有别人没有的所有数据,我们要基于GPT或者LLM训练一个金融模型,这样模型会好很多。”但实际上,所有这些模型表现都不如下一代的GPT,因为智能的能力以及综合新信息的能力,远远超过了仅仅记忆已有信息的能力。所以,这就是几年前这个话题的一个大致情况。但是,快进到一两年后,现在的情况是:“我积累了这么多专有数据,积累了很多年。”在某种意义上,对于很多情况来说,如果这些数据是用来教模型某项技能,或者是用来教模型技能的数据,那么这些数据其实就是“embodied labor”(具身化劳动)。
有人做过所有这些案例研究,有人给所有这些客户打过电话,弄清楚所有这些信息。嗯,这种“embodied labor”现在变成了免费的,AI可以完成所有这些工作,所以现在出现了一个机会:你可以让AI给所有这些客户打电话,做一场大规模调查,了解他们所知道的;你也可以让AI处理所有这些案例研究,进行大量与o3的对话,对吧?然后现在你已经复制了那些专有数据,但却不需要之前所有那些人工劳动。
Stephanie Zhan: 你如何看待这一点,尤其是现实世界中那些真正的专有数据的价值?比如Cursor持续从其开发者社区获得的数据,或者Tesla在过去几年里积累的Autopilot数据?
Bob McGrew: 我认为这些处于中间地带,因为它们确实是大量的数据。我觉得从用户那里获得的数据在训练时有时会遇到一些挑战,很多时候模型无法做到的是,如果你训练时记忆了某个特定个人的数据,可能会泄露到下一个人的数据中。这对使用这类专有数据来说确实是一个真正的挑战。
我认为有一种非常有价值的现实世界专有数据,那就是关于非常具体客户的非常具体的数据,这些客户信任你代表他们使用这些数据。举个例子,我的理财顾问非常了解我,她知道我整个投资组合,了解我的目标类型和风险承受能力。她利用所有这些信息为我带来更好的结果——比如告诉我下一步应该买什么资产。这些数据并不会让她变成更好的理财顾问,也不会教会她新技能,但它为她提供了一个机会,去运用她已经具备的技能。所以我觉得这正是专有数据真正有用的地方。
Agent能真正理解和开发代码吗?
Sonya Huang:我想换个话题聊聊编程。感觉软件工程刚刚经历了一次快速爆发的时刻。仅仅从变化的速度来看,市场上至少有一部分人认为,超级智能爆发的可能性,比之前大家预估的要高得多,特别是看到编程领域进展这么快。你怎么看待编码领域发生的这些变化?
Bob McGrew: 一方面,编程确实发展得非常快;但另一方面,早在2020年1月,我们一看到GPT-3就启动了一个项目,训练GPT-3进行编程。所以,从指数曲线来看,进展其实一直都是持续的,但当它超过某个临界点时,影响会变得非常非线性。这正是过去几年编程领域发生的事情。
对于编程未来的发展,你会看到一种混合模式:用户在IDE里进行传统的光标式编程工作,同时后台还有像Devin风格的Agent自动编码。这样的模式会持续很长时间,可能一两年,在AI普及速度上来说算是很长的时间了。
Sonya Huang:这在AI年代来说简直就是永远了。
Bob McGrew:但如果你考虑一下像vibe coding这样的东西,如果你有一个产品经理,想做一个演示项目,我认为你会看到产品经理用vibe coding做出非常酷的原型,非常棒的演示,来获取用户反馈。但那些东西最后会被丢弃,然后由专业的软件工程师重新开发。
这是软件工程中的经典问题:如果给你一个你不理解的代码库,这是负担还是资产?经典的答案是负担——你必须维护这个东西,但你不知道它是怎么工作的,没有人知道它怎么工作的,这很糟糕。通常的答案是,重新从零开始写代码反而更便宜。所以目前我们还没有一种让人放心的方法,让Agent来理解代码库。现在负担有所降低,但它仍然是负担。你仍然需要人类来做设计,高层次理解代码库。这样当出现问题,或者项目本身变得太复杂,AI无法理解时,人类可以做问题分解,把它拆解成足够小的部分,让AI来处理。
Sonya Huang:你觉得一两年之后会发生什么呢?
Bob McGrew: 我也不知道,我们得拭目以待。
Stephanie Zhan:我很喜欢你关于软件工程师分化的这个观点——一边是那些能自主在后台完成任务的“Agentic”软件工程师,另一边是在人类程序员使用IDE时由AI辅助编码的模式。大多数主流观点其实还没意识到这点。你能详细说说吗?比如,这些自主完成任务的Agentic软件工程师具体会处理哪些任务?另外,另一端由人类主导、AI辅助的编码方式会怎么发展?两者会不会最终融合,还是会长期保持分离?
Bob McGrew:这其实已经是一个连续的“光谱”了。所谓“Agentic”软件工程师能做的事情,通常是那种你可以说“修复一个bug”“重构代码”之类的任务,这些工作对“品味”要求不高,结果也很明确。还有一个很好的用例是把Cobol代码转换成Python代码,这种工作量大且枯燥,但结果很清晰,也很难找到聪明的人愿意做且能做好这种工作。
另一方面,如果你做的事情需要很强的“品味”,比如在实现方式上需要细致考量,某些实现可能会带来非显而易见的后果——可能是性能上的影响,也可能是用户界面未来发展对系统底层抽象的影响——这些地方目前只能由人类来完成。我觉得很有趣的是,是否存在一个足够详细的规范或架构图,让这些Agent能根据它们来编写代码?这样的话,当你把一部分工作从一个Agent交给另一个Agent(甚至是同一个Agent,第二天用不同的上下文窗口)时,它们依然能够在代码库上有效推进。这些问题,是我接下来几年很想看到答案的。
Stephanie Zhan: 太好了,这正是我们在Reflection正在做的事情。
Bob McGrew:完美!
Sonya Huang:为什么会有member of the technical staff这个说法?
Bob McGrew:这是个很好的问题。其实在我加入OpenAI之前,这种做法就已经存在了,我记得这应该是Greg Brockman的想法。我们当时真的不希望在工程师和研究人员之间划出界限。如果你看一些传统的实验室,比如Google Brain—— 很多创办OpenAI的人当时就来自那里,可能现在也一样 —— 那里对于你是有PhD的研究人员,还是软件工程师,有很大的区分。研究人员做理论,工程师写数据代码、做实现。但这种区分有负面影响,因为研究人员会觉得,他们不该亲自写数据代码或实现代码。实际上,如果你不写代码,你就无法真正理解你的研究在系统层面上的表现。
是哪些因素让Alec Radford成为他现在这样的天才研究者?那就是他每一次做事的时候,都会非常仔细地观察数据,并思考这些数据有哪些可能性。他从一开始就自己写数据抓取的代码。所以如果你想要一个真正理解整个技术栈的人——我记得Paul Graham有个很棒的类比,说绘画时媒介的阻力会决定你能创作出什么样的画作。研究也是非常类似的,这是一种艺术性的探索,而研究者本身就是艺术家,也应该像艺术家那样去行动。
所以,我们没有去区分什么人是研究员、什么人是工程师,而是统称为member of the technical staff,这让我们能够建立一个更加平等的环境。后来这一点也确实帮到了我们——因为我们有很多非常优秀的研究者,其实并没有PhD。比如Aditya Ramesh、Alec Radford,他们中的很多人都没有博士学位,而是在OpenAI的工作中学会了这门技艺。
面对AI,人类如何发挥主观能动性?
Stephanie Zhan:最近关于AI的讨论中,Sam Altman 留下了一个很有意思的观点,就是不同世代使用ChatGPT的方式是完全不同的。他说,如果你年纪偏大,你可能会把它当作Google的替代品;如果你是二三十岁的人,你可能会把ChatGPT当作人生教练或者顾问;而如果你还在上高中或者更小,你就是把它当作你的操作系统了。那你周围的人是怎么使用ChatGPT的呢?你会让你的孩子怎么使用ChatGPT?
Bob McGrew:好,那我们先来看看把ChatGPT当作操作系统的这个说法。从最高层面来看,ChatGPT的总可服务市场就是所有需要思考或行动的用户意图,尤其是那些你不想亲自去做的事情。任何你希望完成但又不想亲自动手的任务,都可能是你想用AI来完成的。所以,如果你仔细想想,这里面其实有一个版本听起来非常可怕,就是人们不再为自己做任何事情,这意味着技能的退化。没人学会去做困难的事,我们都像僵尸一样戴着VR头盔,看电影一样。我并不认为这真的是人们对AI的期望。我不是说这是我们想要生活的世界,我觉得这确实存在,但这不是我想要和AI之间的关系,也不是我现在看到人们的使用方式。部分原因是因为目前ChatGPT作为操作系统的技术还没有真正成熟。众所周知,你不能用ChatGPT来控制你的iPhone,但这也不是人们真正想要的。
我儿子今年八岁,他从很小的时候就开始用ChatGPT。我以前还让他帮忙测试那些公开发布前的模型,他总是能给出挺好的反馈。他花了很多时间和ChatGPT互动。他知道ChatGPT不是他的朋友,也不是陪伴者,而是一个专家,是可以和他说话、给他解释事物的人。对于一个八岁的孩子来说,有这样一个能够耐心、详细且准确地给你解释问题的“专家”,是非常宝贵的。所以他充满了好奇心和热情。有一天,他决定要成为一名集币者。他把家里所有的硬币都收集起来,筛选出所有1970年以前的硬币,然后去找ChatGPT,开始打字提问,还拍照,每一枚1970年以前的硬币他都一一问清楚。然后,他会问,“这个值多少钱?”“什么因素会让它更值钱?”“我怎么判断什么是铸币标记(mint mark)?”等等各种问题。如果你想想看,这其实是我小时候也能学会的东西。也许当时有书籍,有杂志,或者我可以查查百科全书。但现在这一切都变得非常容易获取,而且对一个八岁的孩子来说也同样如此。
所以我们去度假时,带他去了一个钱币店。钱币店的工作人员都惊讶于这个八岁孩子知道的那么多,还特别细致地跟我说:“把你的硬币都拿出来。”他却说:“不,我不要那个,我想要有旧金山铸币标记的那个,我想要这一年的,这一年所有硬币都是用银制成的。”店主非常惊讶,他平时很少遇到对细节了解这么深入的孩子,至少以前没有所以我认为,这才是我们对AI的期待——AI应该让你成为你想做的事情上的专家,同时帮你减轻那些无聊、不想做的事情的负担。
Stephanie Zhan:关于下一代这个话题,你还会怎样为他们准备即将到来的AI各种能力?
Bob McGrew:这是一个非常非常难的问题。如果你想想任何一个具体领域,比如你是不是应该教你儿子编程?我想到我八岁的孩子,我女儿正在写论文,我大儿子对数学非常感兴趣。但所有这些东西迟早都会被自动化,所以很明显,不是你必须教他们某一项具体技能。
我希望我的孩子们真正理解的有两点。第一是学习和解决问题的过程。所以数学、写作文和编程的价值就在于这个过程——学会学习,学会去做。第二是有想法、有项目,有相信自己能做到的信念,以及能够利用手头上的各种工具去解决问题的能力。也就是说,这就是自主能动性。我认为现在让孩子们使用AI的正确方式就在这里。
当然,这里面总有权衡。我常常很纠结,比如我八岁的孩子用ChatGPT做很多事情,但我不让他用它来帮忙写代码。因为他正在学习编程,如果他发现其实不需要用AI来写代码,他就很难真正完成这部分学习,达到那个水平。当然,我也不让其他孩子用ChatGPT来做学校作业,为什么要这样做呢?我希望他们先掌握基础知识,一旦他们理解了基础、理解了事物的本质,就可以利用AI来扩展他们的能力。
还有一个关于我八岁儿子的有趣故事。上周,他决定做一个项目,想让即将来访的爷爷奶奶按一个按钮,然后在另一个房间响起蜂鸣器,这样他就能去给他们送上床上的早餐。他向ChatGPT求助,ChatGPT给出的建议是“你需要跳线(jumper wires)、两个Arduino板”,还列了一堆东西清单。他问了很多问题,比如“这个怎么工作?”,还让ChatGPT给我们提供一份亚马逊购买链接清单。我审核了一下,确保他不会触电,然后帮他在亚马逊上买了东西。现在我们正一起组装这个项目。我的做法是,让他自己尽可能多地动手组装,软件安装这部分就由我来做,因为他的电脑被锁了,不能安装软件,但这将是他的项目。
Stephanie Zhan:真是太棒了。
Bob McGrew:我们当年八岁时可做不到这些,而他通过这个过程学到了很多。他并不是把所有事情都外包给ChatGPT,而是现在他理解了什么是Arduino,理解了电路板,知道按下这个引脚会发生什么,为什么这个引脚叫做Grp 1。说实话,这些问题我自己也不一定都知道答案。所以说,ChatGPT真的是个巨大的帮助,能够完成这么多事情。
Stephanie Zhan:激发好奇心和自主能动性,真是太棒了。而且这也大大缩短了被AI积极影响所需要花费的时间,因为它反过来又激发了更多的好奇心和自主能动性。
Bob McGrew:没错。你想想看,以前如果你想做这个项目,可能得拿本Arduino的书,自己写代码,弄不清电路板该怎么接,很多时候这个项目就这样夭折了。教育理论里有个真理:当有人提出问题时,正是他们准备好学习这个问题所涉及内容的时刻。所以,如果你能及时回答别人的问题,哪怕偏离了教学计划,那也是对他们巨大的帮助,让他们在那一刻学到东西。
现在,有了AI,你可以在自己最需要的时候、心理最准备好的时候随时得到答案,而不是在学校里疲惫不堪、心思杂乱时听课。这种随需应答的学习方式,真的非常强大。
Stephanie Zhan:那么,你在日常生活中还怎么使用AI呢?比如ChatGPT Deep Research?我猜你也用AI来安排日程、自动驾驶之类的,还有什么别的用途吗?
Bob McGrew:是的,现在我几乎只用o3模型。一旦用了好的模型,就很难回头。我听说Gemini 2.5很不错,但正如我们之前说的,如果已经够好了,为什么还要换呢?我一周大概用deep research五次,它真的非常有帮助。我觉得只要它能帮你节省几小时的工作时间,就完全值回票价了。
Stephanie Zhan:你通常用deep research来做什么?
Bob McGrew:做了很多不同的事情。比如,我会和孩子们讨论一些之前没人问过的问题:木头被压缩时会发生什么?我想知道答案。开始是弹性压缩,然后开始变形,再往深一步,它会变成钻石,再进一步,甚至会变成黑洞。但实际上这过程有十几个步骤。这是个很有趣的主题,过去15年前,类似的话题可能会变成一则XKCD漫画,作者得花几周时间才能搞明白,现在几秒钟就能得到答案。另外,我也用它来研究新的领域或者创业机会。比如说,如果我对机器人感兴趣,我会让它告诉我关于某家公司或某个市场的所有信息。
Stephanie Zhan:这就是我们的日常生活。
Bob McGrew:没错。
Stephanie Zhan:那有没有其他的新产品?
Bob McGrew:正如你提到的,我也用AI助理来安排日程。现在我自己一个人,虽然可以雇助理,但其实自己动手更有趣。不过日程安排真的很无聊,有AI Agent来帮忙做这件事,感觉非常方便和愉快。
管理者比员工更需要“忠诚”
Sonya Huang:我很想听听你管理OpenAI的一些经验。你手下聚集了一群极其聪明且富有创造力的研究人员,大家对你的评价也非常高,觉得你是一个公正且出色的管理者和领导者。能不能分享一下,你在领导这样一个组织过程中学到的经验和教训?
Bob McGrew:这听起来有点无聊,但作为一个管理者,最核心的事情就是你必须真心关心你所管理的人。这个可能在很多时候并不那么显著。在日常工作中,作为管理者,你的任务往往是协调各方,帮助团队成员理解事情,而忠诚度其实并不是那么重要。但到了某个阶段,作为管理者,你必须让某个人去完成一件困难的事情。比如在他们职业生涯的早期,你得让他们在周日来加班,虽然他们更想去打篮球。而在他们职业生涯的后期,你可能需要他们放弃一个自己非常关心的项目,交给别人,或者分享一个研究突破的成果,这个突破他们本可以独自完成,但如果是两三个非常有天赋的人一起合作,完成得会更快更好。
我从在Palantir与Alex Karp共事中学到的一件事是,非常有天赋的人拥有超能力,但他们也有致命的弱点。而那些处于能力顶尖的人,往往自己甚至都不了解自己的弱点,但这些弱点对周围的人来说却非常明显。对我作为管理者来说,这是很容易察觉的。
他们本可以做出不同的选择。我不是说那些小失误,比如“我今天状态不好”,而是指那些会改变职业生涯的重大决定,而这些错误决定几乎总是一种自我毁灭的表现。因为他们必须去做一件对他们来说非常困难、极度令人害怕的事情。对外人来说,这往往是显而易见的正确选择,是对公司最有利的决定,但对当事人来说,情感上的压力非常巨大,极其难以承受。
作为管理者,如果员工知道你只为自己着想,当你让他们去做那些非常困难且令人害怕的事情时,他们不会信任你。但如果他们知道你是在为他们的利益着想,那么当你让他们去做那些极其艰难且令人恐惧的事情时,你就能帮助他们跨过那道鸿沟,避免他们做出愚蠢的选择,最终取得很好的结果。
即使是解雇员工这件事,我也坚持这个原则。当我与员工交谈时,我会给他们建议,帮助他们做出对他们和公司最有利的决定。如果一个人在这个岗位上注定不会成功,而我已经花了足够的时间帮助他们,仍然没有效果,那么告诉他们现实情况,给他们机会去寻找别的机会,才是真正对他们负责。忠诚是管理中能解锁其他所有东西的关键。只有当员工感受到你的忠诚,他们才会信任你,才会愿意接受挑战,才能让整个团队不断成长。
Stephanie Zhan:我非常非常喜欢你刚才说的那个细节,就是你提到和一大群高绩效人才共事,他们对某个研究方向充满热情,坚信自己能够突破,有时甚至可能只靠自己或者一两个伙伴就能做到。他们都充满自信,有时候甚至带点自负。那你到底是怎么让他们接受并愿意投入到团队合作,共同实现目标的呢?
Bob McGrew:这非常难。这其实也是研究实验室文化和工程文化之间的一个很大区别。在工程文化里,大家通常默认是一起合作,共同打造一个产品;但研究往往源自学术界,那里的文化比较负面,比如说有首席研究员,团队成员之间会争论谁是第一作者,谁是最后作者。中间的其他人其实不那么重要。我们为此挣扎了很久,我觉得没有一个万能的答案。我们尝试过一件事,并且一段时间内效果不错——我们发表了一些论文,实际上让OpenAI作为第一作者。这样就不会争抢谁是第一作者了。这是一种方法,但并不总是适用,也不总是合理。不过,最终的关键是,当你和人共事时,你要明白他们想要什么,然后找到办法给他们他们想要的东西,让他们去做他们想做的事情——他们试图创作的那部分“艺术”。同时,也要让其他人也能做同样的事情,最终所有人合力完成一个整体。你需要反复花时间确保自己解决了这个问题。
安全防御措施需要“自主化”
Stephanie Zhan:在一个日益自主的世界里,安全成为一个有趣的话题。你认为我们应该关注哪些安全问题?你又在哪里看到潜在的机会?
Bob McGrew:当我思考人工智能如何影响安全时,对我来说最重要的一点是,现在进行攻击性工作的能力比以往更加容易了。因此,威胁的数量增加了,执行威胁的时间缩短了,这就迫使防御措施必须变得更加自主和智能。
我投资的一家公司叫Outtake,我认识那里的团队,他们以前都在Palantir工作过,我们在OpenAI也非常成功地用了他们的产品。他们打造了一个自主的网络安全技术栈,几乎不需要人工干预。现在的模型确实能完成这些任务,如果有些重复性的大批量操作人类能做而模型做不了,那责任在于你,而不是模型。但问题是企业和组织的架构并没有为此做好准备,他们必须改变业务流程才能实现这个目标。我觉得这对创业公司是个机会,就像从网页到移动端的巨大转变一样,正在扰乱现有业务,因为复制他们的技术和分发渠道对创业公司来说可能比他们自己调整运营方式来减少对人力的依赖更快。
原视频:The Breakthroughs Needed forAGIHave Already Been Made:OpenAIFormer Research Head Bob McGrew
https://www.youtube.com/watch?v=z_-nLK4Ps1Q&ab_channel=SequoiaCapital
编译:Mia Pan
请注意,本文编译自文末载明的原始链接,不代表 Z Potentials 立场。如果您对本文有任何想法或见解,欢迎在评论区留言互动探讨。
Z Potentials 将继续提供更多关于人工智能、机器人、全球化等领域的优质内容。我们诚邀对未来充满憧憬的您加入我们的社群,与我们共同分享、学习、成长。
(文:Z Potentials)