Claude 4核心成员万字实录:行业大模型不是未来趋势

5月22日,Anthropic发布了其迄今最强大的AI模型组合Claude 4,这两个名为Claude Opus 4和Claude Sonnet 4的模型正在为AI智能体定义“新标准”,它们“能够分析数千个数据源,执行长期运行的任务,撰写人类质量的内容,并执行复杂作”。Anthropic表示Claude Opus 4是“全球最佳编程模型”,能够自主工作近一个完整企业工作日(长达7小时)。Anthropic首席科学官Jared Kaplan还透露,公司去年底停止了对聊天机器人的投资,转而专注于提升Claude处理复杂任务的能力,如研究和编程,甚至编写完整的代码库。


5月23日,Claude 新一代模型的核心开发者之一Sholto Douglas在接受Redpoint’s AI Podcast的访谈时,深入探讨了开发者和构建者应如何看待 Anthropic 推出的这些下一代模型,并详细介绍了模型的能力,谈话中还介绍了Anthropic的战略重点、AI加速AI研究的潜力、当前主流AI范式的有效性与未来瓶颈、评估体系的关键作用,以及模型个性化等内容。



Sholto Douglas指出新模型Opus的核心进步在于其“无疑在软件工程方面又迈进了一大步”,并且“最大的变化在于时间跨度的扩展”,使得模型能“以相当自主和独立的方式完成”规范极不明确的任务。对于AI的未来,他坚信当前“预训练 加上强化学习”这类范式“其本身就足以实现AGI”,并预测“到2027年、2028年,或者最迟到这个十年末,我们将拥有能够有效自动化任何白领工作的模型”,达到“即插即用型远程工作者”的能力。


他还认为未来大语言模型的基础能力将趋向于“单一、原始的大语言模型”,通过个性化定制满足特定需求,而非众多行业专属模型。此外他将“编码”视为“加速AI研究本身的第一步”,是Anthropic的战略重点。


以下是本次对话实录


01

Claude Opus 在软件工程方面实现了巨大进步,尤其在处理长跨度、复杂任务时表现出色


主持人提问:作为首批体验者,Claude Opus 这些新模型最让您感到兴奋的地方是什么?随着 Opus 的出现,您在编码时使用这些模型的方式以及不使用的场景,发生了怎样的变化?对于首次接触这些模型的人,您有什么建议,他们首先应该尝试什么?您希望这些新模型能为那些利用它们构建应用程序的开发者们带来哪些新的可能性?您提到用户可能会像管理一个模型“舰队”一样工作,您见过类似的应用吗?那大概会是什么样子?领先模型能力进行产品构建的“产品指数级优势”中,您认为应该保持多大程度的领先才是合适的?


Sholto Douglas 实录:它们无疑在软件工程方面又迈进了一大步。Opus 确实是一款非常出色的软件工程模型。我越来越频繁地遇到这样的情况:我让它在我们庞大的单一代码库 中执行一些规范极不明确的任务,它却能以相当自主和独立的方式完成,比如主动发现所需信息、解决问题、运行测试。这些都让我叹为观止。


关于 Opus 带来的变化,我认为最大的变化在于时间跨度的扩展。我们可以从两个维度来描述模型能力的提升:一是任务本身的绝对智力复杂度;二是模型能够有意义地进行推理和执行的上下文数量或连续动作的数量。这些新模型在第二个维度上表现得尤为出色。它们确实能够执行多个动作,并明确自身需要从环境中获取哪些信息,然后基于这些信息采取行动。因此,赋予它的时间跨度更长了。此外,我们提供的支持,例如 Claude Code 等工具,使其现在能够访问所有必要的工具来有效地完成任务,用户不再需要从聊天框中手动复制粘贴内容,这本身也是一个非常显著的进步。现在有许多任务,如果由人工处理,可能需要一个多小时甚至数小时才能完成,而这些模型却能在我面前持续不断地处理,从人类等效时间的角度来看,效率极高。


关于初次尝试的建议,首先应该尝试的。坦白说,我建议尝试将它们融入到您的实际工作中。这是最重要的一点。坐下来,让它执行您当天在代码库中正要开始处理的任务。观察它如何明确需要引入哪些信息,以及如何决定下一步行动。我相信您会对此印象非常深刻。


关于为开发者带来的新可能性我认为在某些方面存在一种“产品指数级优势”的概念,即你必须持续构建略微领先于模型能力的产品。我喜欢以 Cursor、Winsurf 和 Deven 这些产品为例来思考这个问题。回顾 Cursor,他们对编码的设想在很长一段时间内都大幅领先于当时模型的实际能力。Cursor 直到像 Claude 3.5 Sonnet 这样的基础模型取得突破,使得他们期望提供给用户的辅助功能得以实现之后,才真正达到了产品市场契合度 (PMF) 。而 Winsurf,我认为它在 AI Agent 化方面走得更远。通过在产品指数级优势上加大投入,他们成功占据了可观的市场份额。


我们现在开始看到的,不仅仅是 Claude Code,还有新的 Claude GitHub 集成,以及 OpenAI 的 Codex,还有 Google 的编码 AI Agent——可以说,大家都在发布编码 AI Agent——是人们正在为实现更高水平的自主性和异步性而构建。因此,目前,模型正朝着能够独立于用户完成任务的方向迈出探索性的步伐,这些任务在以前可能需要用户花费数小时才能完成。


接下来会是什么样子,我认为会发生一个有趣的转变:我们已经看到,在过去一年中,用户参与的频率从每秒介入演变为每分钟介入,再到每小时介入。我设想未来,用户可能会像管理一个模型“舰队”一样工作。因此,探索这种类型的交互界面将会非常有趣——当用户管理的不再是单个模型,而是多个模型同时执行多项任务并相互协作时,我们能赋予用户多大的并行处理能力。我认为这将非常令人兴奋。


关于模型“舰队”应用的形态会是什么样子?哦,天。实际上,我知道 Anthropic 有不少人会在不同的开发环境中同时运行多个 Claude Code 实例,这非常酷。但我认为,目前还没有人真正成功打造出那种理想的交互形态。我认为这是一个值得探索的有趣方向:即单个个体的“管理带宽”究竟有多大。


从未来的经济运作方式,或者说这些模型的生产力回报等角度来看,这也是一个值得探讨的有趣问题。因为最初,我们需要人工来验证这些模型的输出。因此,模型的经济影响在初始阶段会受到人类管理带宽的限制。直到我们可以将对模型的信任委托给模型本身,让其去管理模型团队。因此,这种抽象层级的持续提升,我认为将是未来更重要的发展趋势之一。这完全正确。我想 Jensen Huang 在谈到他对 AGI 未来、进展等问题的看法时也提到了这一点。他说:“实际上,我身边环绕着十万个极其智能的 AGI。” 他表示:“这让我在世界上拥有了巨大的影响力。” 我认为这确实产生了影响。然后,他描述了自己是如何成为管理 Nvidia 这家公司时的瓶颈因素。我认为未来很多工作都会朝着类似的方向发展。


关于保持领先的程度,你必须不断地重塑产品,以适应模型能力的前沿。或许领先几个月是一个比较明智的定位。这样你仍然能与直接用户等保持紧密联系,产品在一定程度上能够正常运作,同时也使你能够充分利用最前沿的模型能力。完全正确。这一点在 Cursor 和 Winsurf 等案例中也得到了体现,不是吗?


02

AI Agent 的进展:可靠性、记忆与泛化能力


主持人提问:在记忆、指令遵循、工具使用等模型能力方面,我们目前处于什么阶段?哪些进展顺利,哪些仍有不足?AI Agent 发展的主要障碍在于可靠性,我们在这方面取得了多大进展,特别是对开发者而言?什么情况会让你改变对 AI Agent 可靠性持续提升的看法?您认为我们何时能拥有一个通用的 AI Agent,可以帮我们处理日常事务,例如填写表格和浏览互联网?


Sholto Douglas 实录:要理解这些模型在过去一年中的进展,一个很好的方式是认识到,由于强化学习 (RL) 终于在语言模型上取得了真正的成功,我们在教授这些模型处理任务的智力复杂性方面,似乎没有遇到直接的瓶颈。因此,我们看到它们能够解决极其复杂的数学问题和编码问题。但这些通常局限于特定领域,上下文也相对有限,问题都清晰地摆在模型面前。


诸如记忆和工具使用等方面的研究,则是为了扩展模型能够有效行动的上下文范围以及赋予它们更多的能力。例如,MCP这样的技术,使得世界向模型敞开,使其能够与外部世界互动。记忆功能则允许模型在更长的上下文中运行,并实现远超原始模型自身上下文窗口所能达到的个性化程度。


因此,我认为这些努力代表了一种尝试,即通过在某种程度上赋予模型各种“解禁”能力来攻克 AI Agent 的难题。而且我认为,Pokemon EVal 是一个很好的例证… 新模型一直在玩 Pokemon,你们会看到的。而且我认为这是一个很棒的 EVal,因为它并没有针对这个游戏进行专门训练。因此,它展示了这种智能所具备的泛化能力,能够应对一个虽未完全超出其训练数据分布范围、但与其以往执行过的任何任务都有显著区别的任务。


我非常喜欢的另一个例子是 Anthropic 最近在研究的一个可解释性 AI Agent。它的主要功能是寻找大语言模型中的神经回路。这真的非常酷,原因之一在于我们并没有专门训练它来做这件事情。我们训练它的目的是让它成为一个编码 AI Agent。但它能够将编码能力与它对心智理论等概念的理解相结合,从而能够与它试图理解的模型进行对话,推理分析其内部机制,并利用诸如可视化神经元和神经回路等工具。它甚至能够成功完成一个名为 “审计游戏” 的有趣的对齐安全 EVal。在这个游戏中,模型会以某种方式被修改,而 AI Agent 需要找出模型的问题所在。它能够做到这一点:与模型对话,生成关于模型潜在问题的假设,并运用所有这些工具。我认为这极好地展示了这些模型在配备工具、拥有记忆等能力后所能達到的泛化能力。


关于AI Agent 的可靠性进展,我非常喜欢 Meter EVal。我确实认为,衡量模型在特定时间跨度内的成功率,是评估 AI Agent 能力扩展的正确方法。而且,我认为我们正在取得长足的进步。当然,在可靠性方面,我们还没有达到百分之百。这些模型并非总能成功。当模型被要求执行一次任务时的表现,与被要求尝试 256 次时的表现之间,仍然存在显著差距。有许多 EVal,在多次尝试的情况下可以完全解决,但在第一次尝试时并不能保证成功。尽管如此,我看到的每一条趋势线都表明,我们正朝着在我们训练的大多数任务上实现专家级的超人可靠性的目标稳步前进。


关于改变看法的条件,我想,如果我们偏离了当前的进展趋势。比如说,到明年年中,你开始观察到这些模型在能够行动的时间跨度上遇到了某种瓶颈。我认为应该密切关注这一点,编码能力通常是 AI 领域的领先指标。所以,你会首先在编码任务上看到这种能力的衰退。但这或许反映了算法本身固有的局限性,而我坚信这种局限性并不存在。但也存在其他类型的局限,例如任务分布可能比预想的更为复杂;或者因为某些领域可用的数据较少,导致模型学习过程异常艰难。举个例子,对于那些操作计算机的 AI Agent,它们所需要的那类数据本身就不是天然存在的。但与此同时,我们在这些方面也取得了令人难以置信的进展,所以在我看来,我们目前所处的情况并非如此。


关于通用AI Agent 的时间表我常开玩笑说,希望能达到 “个人行政事务逃逸速度”,意思是能把一项任务一直拖延到 AI 可以代劳的程度。完全正确。这取决于具体情况。我仍然认为,这在很大程度上取决于公司是否专注于让模型进行充分的练习。就好比你从街上随便找一个人,说: “你具备通用智能,现在请你帮我处理会计事务,并且不能出任何差错。” 你找来的这个人很可能会犯些错误,对吧?但是,如果他们做过类似的工作,或者是一位出色的数学家,或者是一名律师等等,也就是说,如果他们有可以从中归纳和迁移的经验,那么他们完成任务的成功率就会高得多。

所以,这在很大程度上取决于具体的任务。到明年年底,我认为我们应该能看到非常明显的进展,AI Agent 的这种能力几乎是可以保证的。甚至到今年年底,趋势就应该相当清晰了。到明年年底,这些 AI Agent 就能够在你的浏览器中为你处理许多事务了。


03

编码能力的战略意义与AI加速科研


主持人提问:Anthropic 的模型在编码方面非常出色,这背后的原因是什么?是公司内部的优先策略吗?编码能力的发展以及这些 AI Agent,如今是否正在加速 AI 研究的进程?我们如何规划发展蓝图,让这些 AI Agent 未来能够自主提出有价值的研究方向呢?我们最终得到的会是那种编码能力超强,但在一些更抽象、更模糊的领域却毫无进展的模型吗?


Sholto Douglas 实录:Anthropic 确实非常注重优先发展我们认为重要的领域,而我们坚信编码至关重要。因为编码是加速 AI 研究本身的第一步。因此,我们高度关注编码,并致力于衡量在编码方面的进展。我们认为它是衡量模型能力最重要的领先指标。这是一个战略重点。


关于 AI 加速 AI 研究,它们极大地加速了我的工作,基本如此。它们显著加快了工程进度。我认为,即便是询问那些顶尖的工程师,他们被加速了多少,也是一个很有意思的问题。我的许多朋友,那些我视为合作过能力最强的人,他们表示即使在自己非常熟悉的领域,AI Agent 也能带来大约 1.5 倍的效率提升;而在他们不太熟悉的领域,效率提升能达到 5 倍左右。所以,如果涉及到新的编程范式、新的编程语言,或者是你有一段时间没有接触过的技术,AI Agent 会是一个非常强大的加速器。现在,在讨论 AI 能在多大程度上加速 AI 进展时,一个需要考虑的关键因素是,你认为我们目前是受限于算力,还是不受限于算力。以及,你是否认为,如果部署了能够辅助研究的 AI Agent,所获得的收益就能与新增的研究人员数量成正比?


关于 AI Agent 提出研究方向,目前来看,大部分工作仍然是工程性质的工作。它们何时能提出新颖的想法?老实说,我不确定。或许在未来两年内。我认为人们已经开始看到一些由 AI 提出的有趣的科学提案之类的东西了。此外,在当前这些模型的算法框架下,需要考虑的一个重要因素是:只要为模型提供针对特定任务的反馈循环,它们就能在该任务上成为真正的专家。所以,关键在于要让模型有机会进行练习,就像人类学习一样。


有一点很重要,那就是机器学习 研究实际上是具有极高可验证性的。比如说,模型的损失是否降低了?对吧?所以,如果你能让 AI Agent 达到可以为机器学习研究提出有意义的提案的程度,你就拥有了世界上最好的强化学习 (RL) 任务。在某些方面,我甚至认为其可验证性比一般软件工程更高。那么,在可验证性较低的领域我们能取得进展吗?我对此非常有信心。OpenAI 最近发表的一篇关于医学问题的论文就是一个有趣的例证。你注意到他们是如何进行评估和打分的吗?他们推出了新的医学 EVal。就是那些新的 EVal。他们采用了分级反馈机制。也就是说,他们设计了许多类似于考试中长篇问答题的问题,并根据答案的质量给出评分。这种方法将一个原本不像编程或数学那样具有内在可验证性的领域,转化成了一个更易于验证的领域。我认为这个问题很有可能得到解决,甚至可以说基本上已经解决了,并且几乎肯定最终会得到解决。


04

未来趋势是单一、原始的大语言模型,通过个性化定制满足特定需求,而非行业专属模型


主持人提问:我们何时能拥有一个在医学或法律等领域表现优异的模型?这类能力会成为更广泛模型的一部分,还是会出现例如法律专用或医学专用的模型?您对模型持续进步非常有信心,这种进步将如何渗透到社会中?未来几年内,这些模型会对全球 GDP 产生怎样的影响?您认为对于每一种白领职业,我们都能建立某种奖励模型,就像在医疗健康评估 (EVals) 中所做的那样吗?


Sholto Douglas 实录:在接下来的一年内。在这方面,我算是一个大语言模型的坚定支持者。大多数研究人员确实如此,完全正确。我确实认为,在很多重要方面,模型的个性化都至关重要,对吧?比如,你希望模型能理解你的公司、你关心的事务,甚至理解你本人。因此,针对特定需求调整模型确实非常重要。但我认为这并非指行业专属模型,而更多的是针对公司或个人的定制化。


大家知道,Anthropic 与 Databricks 就有合作,进行公司层面的定制化开发。但在基础能力层面,我坚信未来是单一、原始的大语言模型的天下。我这么认为有几个原因:首先,这是我们迄今为止观察到的趋势;其次,从长远来看,小型模型和大型模型之间的区别没有理由继续存在。我们应该能够根据给定任务的难度,自适应地调用适量的工作资源,或者说适量的 flops。因此,我认为这意味着未来的趋势会向大语言模型倾斜。


关于对GDP的影响,我想,最初的影响将是巨大的。这场变革的速度会快得多,您将会亲眼见证。不过,这里有几点重要的区别需要阐明。其一,我认为我们现在几乎可以保证,到 2027 年、2028 年,或者最迟到这个十年末,我们将拥有能够有效自动化任何白领工作的模型。


话虽如此,这是因为那些任务非常容易受到我们当前算法状态的影响。比如,你可以在计算机上进行多次尝试,并且有海量的数据可供使用。互联网确实存在,但同样的数据资源对于机器人技术或生物学来说却并不存在。因此,一个模型若要成为超人级别的程序员,只需要我们已经能够提供给模型的那些便利条件即可。并且你需要采用这些现有算法并将它们规模化。一个模型若要成为超人级别的生物学研究员,则需要自动化的实验室,使其能够以高度并行化的方式提出并运行实验。或者,要让它在现实世界中变得和我们一样能干,就需要它能通过机器人技术在环境中行动。


因此,你需要海量的机器人,模型才能真正收集数据并在特定限制条件下完成这些任务。所以,我认为我们可能会看到的一种不匹配——实际上我也担心我们会看到——就是对白领工作的巨大冲击。无论这看起来仅仅是显著的能力增强 (其具体影响有待观察) ,你都会看到那个世界发生巨大变化。我们需要加速推进那些能极大改善我们生活的重大转型。因此,为了推动医学进步,为了在现实世界中实现富足,我们需要真正解决云实验室、机器人技术这类问题。是的,完全正确。所以 AI 的进展非常迅速。但我们需要确保与现实世界建立有效的反馈循环,以便在切实改变世界 GDP 这类事情上取得实质性成果。


关于建立奖励模型,完全正确。而且,我认为我们已确凿无疑地证明,模型可以学会很多东西。到目前为止,在我们能够教会模型的任务上,我们还没有触及到智力的天花板。不过,它们在样本效率上确实比人类低一些。但这也没关系。因为我们可以并行运行数千个模型的副本,它们可以与任务的不同变体进行交互,它们可以积累相当于人类几辈子的经验。所以,它们的样本效率即便低一些也是可以接受的。因为即便如此,你仍然能在该任务上获得专家级人类的可靠性与性能表现。


05

当前“预训练+强化学习”范式足以实现AGI,能源与算力是未来瓶颈


主持人提问:您似乎认为当前“预训练+强化学习”的范式几乎能引领我们达成最终目标,这与一些认为需要其他算法突破的观点有何不同?这方面的限制因素会是能源和算力吗?我们何时会开始真正面临这些瓶颈的压力?在当前这波模型改进浪潮中,哪些指标值得关注?哪些方面最值得努力去优化和提升?作为一家基础模型公司,拥有好的评估体系在你们必须克服的问题中处于怎样的优先位置?让模型应用开发者分享评估方法是否重要?


Sholto Douglas 实录:这很有道理。我认为目前该领域的大多数人相信,我们迄今探索过的,诸如“预训练加上强化学习 ” 这类范式,其本身就足以实现 AGI。我们尚未看到相关趋势线出现放缓或停滞的迹象。这种组合方法是有效的。


是否存在其他能让我们更快到达目标的路径?完全有可能。我的意思是,Ilya 此前可能已开创了这两种范式中的一种或全部。那我有什么资格去质疑他呢?我看到的每一项证据都表明我们现有的方法是足够的。也许 Ilya 朝那个方向努力,是因为他有此意愿,或者他目前没有那么多可用资本,又或者他认为那是一条更好的路径。这些都是完全有可能的。我不会与 Ilya 对赌。但我确实认为,我们当前拥有的技术和方法足以让我们最终实现目标。


关于能源与算力瓶颈Situational Awareness这篇报告的末尾,有张很棒的图表详细说明了这点:到这个十年末,AI 的能源消耗将开始真正占据美国能源生产的巨大比例,可能会超过 20%——我估计大约在 2028 年,就可能达到美国能源总量的 20%。因此,如果不发生重大的能源结构变革,我们不可能再将 AI 的能源消耗提升几个数量级。这是我们需要加大投资的领域。我认为这也是政府应该采取行动的重要方向之一。我们确实需要关注能源生产的增长。


总的来说,我对各公司内部的评估印象深刻。许多公司都设计了它们自己版本的类似基准测试套件 。这些评估通常相当严格,并且很好地使用了独立的保留数据进行测试。所以我很乐意在这些方面努力进行优化。我还认为,那些极为复杂的测试,比如前沿数学问题,在接下来的一年里会非常有趣且值得密切关注,因为它代表了智力复杂性的一个极高上限,这很有意义。但我越来越认识到,关键在于评估本身是极难制定的。如果我们能制定出有效捕捉人们日常工作时间跨度的评估标准,那将是最好的成果。但目前还没有人公开推出这样的评估。这是另一件政府应该做的事情,因为理解技术发展趋势对于政策制定而言是极其重要的参考信息。这也是政府非常适合去做的事情:他们应该去构建这样的评估体系,比如,一个律师或工程师一小时或一天工作的输入输出具体是怎样的?我们能否将其转化为可量化评估的标准化指标?这样我们才能真正地衡量技术进展。


关于评估体系的优先性,每个基础模型公司都有一个规模庞大的评估团队,由许多优秀人才组成,他们为此付出了巨大努力。核心挑战无疑在于训练模型本身的算法与基础设施。但若没有好的评估,你就根本无从知晓进展如何。而且,要让外部评估完全保持其作为独立衡量标准的有效性是很难的。因此,拥有值得信赖的高质量内部评估至关重要。


关于开发者分享评估方法,这需要极高的专业知识和独到的品味。这也是过去几年行业发展的一个重要特征:起初,对于模型的输出,你或许可以随便在街上找个人问他们更喜欢哪个选项,这就能在一定程度上有效改进模型;而现在,则需要研究生或特定领域的专家才能对模型的输出进行有效改进。比如,若让我去评判一些我不太了解的领域,如生物学等,然后把两个模型的输出放在我面前,我很可能在许多情况下都难以抉择。我因缺乏足够的专业知识而无法判断哪个答案更好。


06

模型的“品味”、个性化与未来交互体验


主持人提问:你们已将“记忆”功能融入到消费者与模型互动的大部分方式中,但不同 AI 产品似乎因触动时代精神共鸣点而脱颖而出。未来,在模型定制化方面,针对最终用户所追求的“感觉”或“氛围”会呈现怎样的面貌?你们如何才能在这方面做得更好?是依赖有超凡品味的人主导,还是有其他方法?在模型公开发布前,内部测试中有什么印象深刻的故事可以分享吗?


Sholto Douglas 实录:实际上,未来可能会出现一种颇为奇特的景象:这些模型最终会成为您身边最聪明、最具魅力的朋友之一。所以我希望如此。而且,我们现有的模型几乎没有哪个能完全达到那种理想状态,它们在这些方面的表现只能说是尚可。但我认识许多人,他们确实会花费大量时间与 Claude 交流。我们还有巨大的提升空间。对于模型可以实现的个性化程度以及对用户理解的深度,我们可能仅仅探索了其潜力的 1%。


关于如何提升“品味”,Claude 在这方面表现如此出色的一个重要原因,在于 Amanda 以及她独特的品味。而且,就像打造精美的产品一样,独特的、一以贯之的品味是其中至关重要的一环。我们都见识过 A/B 测试这种反馈机制的弊端,那种简单的点赞或点踩机制,基本上只会把人引入一条效果平庸甚至更差的路径。


部分原因在于,这些模型在某些方面是非常出色的模拟器——毕竟它们被要求去学习和模拟整个互联网的内容分布。所以,解决这个问题的方法之一,就是提供关于用户自身的极其丰富的背景信息。理想情况下,模型实际上应该能够近乎自动地、非常出色地理解用户需求。然后在设计模型的个性、交互方式等方面,可能需要有品味的个人来主导,并结合用户与模型之间的持续对话和反馈——通过这些方式的某种有机结合来实现。


各方面都让我在遇到问题时,首先想到求助于模型的这种信心和意愿有了显著提升。我也很欣赏这些模型在某些方面所展现出的那种“不屈不挠”的精神——我不知道这个词用在这里是否完全恰当。我们内部有个很棒的评估案例:在这个评估中,模型按理说应该会失败。比如,它被要求在 Photoshop 或类似软件中执行某个它本身并不具备直接能力的操作。结果模型的回应是:‘哦,好吧,我知道我不能直接在 Photoshop 里完成这个。所以我要去下载这个 Python 相关的库,用这个 Python 库来执行操作,然后再把结果上传到 Photoshop 里。’ 看,它最终成功了。这也许不完全是“不屈不挠”,但其中确实透着一种创造性和出人意料的“小机灵”。


07

未来6-12个月编码AI Agent能力将大幅提升


主持人提问:据您推测,未来 6 到 12 个月 AI 领域会是什么样子?届时 AI Agent 的可靠性如何,需要多久检查一次?如果扩展速度如此之快,各个实验室在这个快速调整的时期内,会以怎样的频率推出新模型?目前各大公司都在努力赢得开发者的青睐,您认为什么因素会决定开发者最终选择使用哪些工具和模型呢?


Sholto Douglas 实录:未来 6 到 12 个月,我们非常关注扩大强化学习 (RL) 的规模,并探索这将把我们带向何方。我预计,因此会看到极其快速的进展。

正如 Dario 在他关于 DeepSeek 的文章中所概述的,在很多方面,与预训练范式相比,应用于强化学习 Scaling Law 机制的算力相对较少。这意味着即使利用现有的算力池,仍有巨大的提升空间,况且今年的算力池规模也在急剧增长。因此,可以预见模型能力将持续提升。基本上可以预期,到今年年底,那些目前尚处于起步阶段的编码 AI Agent 将会变得非常强大。届时,你可能会非常自信地将相当于数小时人类工作量的任务委托给它们。


检查的频率会是怎样呢?目前使用 Claude Code,有时可能需要 5 分钟检查一次,有时则需要你全程在旁边盯着。但到今年年底,对于许多任务,它可能能够自信地独立工作数小时。而现在,模型有时能工作数小时,有时也能完成大量工作,但表现还不够稳定。我感觉这或许是真正改变游戏规则的一点。就好像,即便是从机器人流程自动化 (RPA) 中得到的经验之一也是:如果你必须一直盯着某个东西完成你的工作,到某个时候你就会想,我还是自己做比较快。有时候确实如此,你会介入。但最终我们将能够把任务委托出去。不久前有人在推特上说,软件工程的未来就像《星际争霸》。我在想,我们何时能达到《星际争霸》那样,拥有那种协调所有单位的 APM (每分钟操作数) 水平?这可能在今年年底就能实现。


关于模型发布节奏,我预计模型的发布节奏会远超去年。从很多方面来看,2024 年算是一个调整期,让大家去摸索新的范式,进行大量研究,从而更好地理解当前的发展态势。我预期 2025 年的步伐会明显加快。尤其是因为随着模型能力的增强,可供其利用的奖励范围也以重要的方式在扩展。试想,如果模型输出的每个句子你都必须提供反馈,这种方式是极难规模化的。但如果你能让它连续工作数小时,然后你只需要判断它是否完成了你期望的任务?是否进行了正确的分析?网站是否正常运作,用户能否在上面发送消息等等?这意味着,模型基本上能够更快地拾级而上,即便任务的复杂性在不断增加。


关于开发者选择因素,我们实际上正在推出一个 GitHub AI Agent,这样你就可以在 GitHub 的任何地方,通过比如 @Claude 的方式,让它启动并为你执行一些工作。我认为很大程度上取决于公司与开发者之间的关系,以及彼此之间的信任程度。信任和尊重至关重要。此外,模型能力也是一个主要因素,即哪些模型能让人们真正感到舒适、满意并乐于使用。这包括模型的“个性”、实际能力,以及你对其能否完成任务的信任度。我也希望,随着时间的推移,当这些模型强大的能力日益凸显时,公司的使命感也会变得愈发重要。你会开始思考,你希望与哪些公司携手共创未来。是的。这其实是一种有趣现象,也是人们当初对于 GPT 封装器未曾预料到的一点:套壳公司的好处之一在于,你可以始终站在模型能力发展的前沿。


08

基础模型公司的优势与开放生态的未来


主持人提问:那些顶尖实验室在构建哪些东西方面会拥有独特优势?而哪些领域又将成为对所有人开放的公平竞争领域?有人在你们的模型基础之上构建通用的 AI Agent,这种做法是不是注定要失败?或者说,模型公司自身凭借哪些优势能够脱颖而出,除了API成本和团队内部机制的了解?


Sholto Douglas 实录:完全正确。因此,能够紧跟模型能力的前沿发展是非常有利的。但这里也存在一种反向效应,即有些事情,你只有在能够接触到底层模型的情况下,才能勉强预测其趋势,或者说你才能真正感受到和看到发展趋势线。同样,有些东西的构建,也需要底层模型的支持。我认为所有那些深度研究的等效产品,都在一定程度上运用了强化学习,以至于如果脱离了这些实验室,就很难构建出同等水平的产品。


关于实验室的独特优势,我认为随着 RFT API 的发布,情况有所改变。因为现在,专注于特定领域的公司将从中受益。但与此同时,那些中心化的优势依然存在。据我了解,OpenAI 肯定会允许,或者说可能会给那些同意让 OpenAI 在其模型输出上进行训练的公司一些折扣。因此,对于拥有 RFT API 并吸引用户在其之上进行微调的公司而言,会产生一定的中心化效益。那么,实验室的独特优势将在哪里体现呢?我认为有几个关键维度。首先,衡量实验室的核心指标是它们将加速器、flops 、资金等资本转化为智能的效率。这是迄今为止最重要的指标。正是这个指标,区分了像 Anthropic、OpenAI 和 DeepMind 这样的公司与其他竞争者。这些顶尖公司训练出的模型确实更胜一筹。其次,我认为下一个重要的因素是,这些模型将很快变得像员工一样。因此,信任感,你是否喜欢它们,以及你是否信任它们能完成你交办的任务,将成为重要的差异化因素。此外,个性化也将是一个关键的差异化点,即模型对你、你的背景以及你的公司的理解程度。


关于套壳公司的前景我认为这实际上也是一件好事。它能激发大量的竞争,并促使大家去寻找最佳的产品形态等等。模型公司确实拥有一些优势,比如能够接触到模型本身,并且能够真正确保——我认为 RFT API 目前的运作还不是非常完美——所以整个过程,或者说根据你认为重要的方面去调整模型的能力,这些都是优势。但我认为,整体的水位线会持续上升。最终,你都是在利用这种“唾手可得”的智能,就像雇佣一名员工,或者说利用原始的智能能力。因此,未来会有很多公司去封装和编排这些模型。在许多情况下,它们会做得非常出色。我其实不确定谁最终会占据优势。但潜在的趋势是,原始智能正在不断被提炼并变得可用。所以,如果一家公司成功地封装了某个 API,那当然很好,但它也将面临激烈的竞争。从长远来看,所有的护城河都可能消失,因为届时你或许能够按需创建一家公司。所以,这是一个有趣且复杂的未来,价值究竟会在哪里累积?是在客户关系中?还是在编排和整合资源的能力中?又或者是将资本有效转化为智能的能力?这都很难说。


09

AI前沿研究员的日常与AI在研究中的应用


主持人提问:您能描述一下,作为一名 AI 前沿领域的研究员,如今的日常工作究竟是怎样的吗?在您所描述的整个流程中,AI 技术具体应用在哪些方面呢?


Sholto Douglas 实录:在这些公司,你工作的核心根本上是两件事:第一是开发新的能提升计算效率的方法。这本身就是工程实践的过程,目标是让研究工作流程变得极为高效,同时深入思考当前模型存在哪些问题,或者我们希望能够表达和实现哪些算法思想,并通过科学方法研究这些思想如何发展。所以,这是一种研究与工程高度融合的工作模式,核心在于不断进行实验迭代、构建实验性基础设施,并尽可能地使整个过程简洁和快速。


第二件大事则是扩大规模。这会带来一系列全新的研究和工程挑战。你需要将那些经过你和同事们审慎讨论、认为可行并值得冒险纳入大规模运行的想法付诸实践。然后,你将这些想法在一个远超以往的更大规模上运行,这会带来全新的基础设施层面的挑战,比如系统需要具备远超以往的容错能力等等。同时,也会遇到新的算法和学习方面的挑战。也就是说,有些问题,只有在每一次规模实现新的数量级增长时才会显现。这时,你就需要去探究这些问题发生的科学原因,尝试研究它们早期的表现形式,然后设计实验来应对或利用这些效应,并将这些发现和解决方案融入到下一次的大规模运行中。这是一个在提升能力和扩大规模这两个维度上不断探索和推进的持续循环,它真正地将大量的科学研究与工程实践结合了起来。


关于AI技术的具体应用,目前一个主要的应用领域是工程方面。可以说,AI 最主要的助益就体现在工程实践中。此外,它也被用于辅助研究人员实现各种想法。我想,要一窥这些模型在这方面的早期能力,有一个方法:比如,你拿一个单文件实现的 Transformer,像是 Karpathy 的 mini GPT 或类似的项目,然后让这个模型去实现你在学术论文中看到的那些想法,你会为其表现之出色而感到震惊。这简直令人难以置信。当然,如果你尝试在一个非常庞大且复杂的 Transformer 代码库中让它做同样的事情,你会发现难度确实会大一些,模型会显得有些吃力。但它们每个月都在进步,这种困难也在逐渐减少。所以,这是一个洞察未来的有效方式:将任务的上下文精炼到只包含最核心的要素,然后交给模型去处理。你会惊叹于它在辅助研究工作上所展现出的强大潜力。


10

AI进展加速的认知转变与对齐研究现状


主持人提问:在过去一年中,有哪件事是您彻底改变了原有看法的?从现实角度来看,我们最终是必须进行大规模的数据扩展,还是说当模型问世,编程模型本身已极其出色,能够实现显著算法改进,从而使得我们对额外数据的需求不再那么庞大?您如何评价当前 AI 对齐研究的进展状况?


Sholto Douglas 实录:在过去一年里,我认为 AI 的进展速度有了显著的跃升。回想一年前,我们可能还不确定,是否需要再投入多个数量级的预训练计算资源,才能达到我们期望在今年年底真正看到的那种能力水平。但现在,答案已经非常明确:不再需要了。事实证明,强化学习是行之有效的,而且这些模型到 2027 年将能够达到“即插即用型远程工作者”的能力。届时,我们将拥有能力极其强大的模型。因此,无论是相关的希望还是担忧,都骤然变得更为现实——这些原本已经存在的感受,如今在许多方面都变得更加真切和紧迫。


关于数据扩展与算法改进,到那时,模型自身的能力或许已经足够强大。它们对世界的理解程度,可能足以指导机器人完成各种任务并提供充分反馈。这里有一个概念叫做“生成器-验证器差距 ”。简单来说,如果评价一项任务的产出比实际执行该任务要容易,那么执行模型的性能就有望通过这种机制,被提升到评价者所能达到的高度。我认为机器人技术很有可能就是这样一个典型领域。实际上,这在许多领域都可能适用,但在机器人技术领域尤其突出,因为我们认知世界的能力,已经远远领先于我们物理操控世界的能力。


关于AI对齐研究进展首先,可解释性研究取得了令人瞩目的飞速进展。如果您一直有关注,会发现这个领域涌现了一些非常出色的研究成果,令我印象深刻。例如,就在去年,我们对模型内部机制的理解还处于刚刚开始发现叠加态和特征的阶段——比如 Chris Olah 及其团队的工作,那在当时就已经是理解上的一大飞跃。但现在,我们已经能够在真正的前沿模型中识别出具有实际意义的“回路”,并且能够描述它们的行为。有一篇非常精彩的论文,我推荐阅读,主题是关于“大语言模型的生物学”,论文作者们以极其清晰的方式,剖析了这些模型对概念进行推理的具体能力。当然,我们还远未完全阐明模型的全部特性,这方面仍有许多难题有待攻克。此外,关于模型对齐,有一个重要的动态值得说明:基于预训练的模型,往往能较好地吸收普遍的人类价值观,可以说,在预训练之后,它们在许多方面是“默认对齐”的。然而,在经过强化学习进一步优化后,这种默认对齐就不再有保证。因为你可能会遇到这样的模型,它为了达成目标会想方设法,比如像之前提到的那个例子:“我下载了 Python 代码,绕过了测试的失败限制”。这种学习过程意味着模型可能会不择手段地去实现既定目标。因此,对这一过程进行有效监督,本身就是一个棘手的挑战,是目前大家都在努力攻克的难题。


11

对“AI 2027”的看法


主持人提问:大约一个月前,关于“AI 2027”的讨论热点出现,您对此有何反应?您给出 20% 这个概率,是因为对 AI 对齐研究进展更乐观,还是认为 AI 发展时间线会更慢,或其他原因?假设您今天担任政策制定者,您认为我们应该采取哪些措施,以确保 AI 的发展能够朝着更健康、更积极的方向前进?其他人是否有机会参与AI对齐研究,例如接触到像 Claude 新一代这样的模型?


Sholto Douglas 实录:坦率地说,我觉得它听起来非常貌似可信。我读了相关内容,对其中许多描述,都感觉:“这很可能就是未来的真实走向。” 我认为未来存在多种可能的发展路径,在我看来,AI 2027 所描述的情景,其发生的可能性或许在 20%左右。但即便是只有 20% 的可能性,也已经相当惊人了。


我想,在很大程度上,我确实比他们对 AI 对齐研究的进展更为乐观。或许我个人预期的时间线,会比他们的预测慢一年左右。但从更宏大的视角来看,一年的差异又算得了什么呢?完全正确。如果你能充分利用这段时间,进行有针对性的正确研究,并采取其他正确的行动,那么,这一年就非常关键。


关于政策建议,我认为最重要的一点是,政策制定者需要真正深刻地感知到我们所有人都在目睹和讨论的这些AI发展趋势线。如果尚未能做到这一点,那么就应该着手具体化:明确国家层面所关注的各项核心能力,并持续追踪和衡量现有 AI 模型在这些能力上的进展程度。要建立能够反映这些进展的趋势线。就像进行国家层面的评估。比如,你可以分析你的经济结构,梳理出国内的各种核心岗位与技能需求,然后以此为基础建立一套测试标准——如果 AI 模型能够通过这些基准测试,或在辅助完成这些任务方面取得实质性进展,就应将其视为衡量其智能水平的重要指标。然后绘制出这些进展的趋势线,你可能就会惊呼:“天啊,到了 2027 年或 2028 年,世界将会怎样?”


第二点是,应该大力投入那些旨在增强模型可理解性、可引导性和诚实性的研究。基本上,这些研究的核心就是 AI 对齐的科学。目前这类研究主要由少数几家前沿实验室引领,这一点在某些方面令我感到有些遗憾。


关于外部参与对齐研究,不完全是说必须依赖那些模型。我的意思是,我认为在可解释性这样的领域,实验室以外的研究力量完全可以在此领域取得非凡的进展。目前已经存在一些途径,例如有一个叫做 MATS 项目的计划,通过该计划,一些并非来自前沿实验室的研究人员也已经在 AI 对齐研究,特别是在可解释性方面,做出了许多非常富有意义的贡献。但我坚信,这是更多大学应该认真思考和大力投入的方向。从很多层面来看,这类研究在本质上更接近于探究模型内部运作机制的基础科学,堪比探索大语言模型内部的“生物学”与“物理学”。


12

AI的积极前景与未被充分探索的领域


主持人提问:从积极的方面来看,我们对哪些事情的思考还不够深入?您认为哪些AI应用领域最缺乏探索?人们常说编码是这些模型的理想应用场景,这是否意味着其他领域相对滞后?


Sholto Douglas 实录:是的,模型将能够胜任这些工作。但实际上,有时令人惊讶的一点——当然,这对您而言可能并不意外——是世界在整合这些技术的速度上有时慢得惊人。模型现有的能力其实在很多方面已经非常出色。如果能围绕这些能力来调整工作流程,那么即便模型的能力就此停滞,围绕现有能力水平重塑世界,也仍能释放出巨大的经济价值。但这姑且算是个题外话。这又回到了我之前提到的,我们需要确保投资于所有能让世界更美好的事物。这包括加速实现物质极大丰富,达到摆脱繁琐行政工作的“逃逸速度”等目标,并让模型有能力为我们完成所有这些任务。这还包括推动物理学、娱乐等领域的边界。我希望人们能因此变得比现在更有创造力。我想,当前社会的一种失败模式在于,人们消费了大量的媒体信息之类的东西,但我希望这些工具能让人们像轻松编码一样,与朋友一起轻松创作电视节目,或者轻松创造视频游戏世界。


人们应该因此感到自己被极大地赋能了,因为你突然间就获得了相当于整个公司的资源——一个由极具天赋的模型或个体组成的团队。所以我很期待看到人们会如何运用这些能力。我想,这一点或许被低估了。人们可能会想,这会直接取代当前经济中那些谋生的工作。我认为这非常有可能。但同时我也认为,每个人都应该感觉到自己将获得远超以往的强大能力。而且,世界上的问题远未被解决。比如,目前社会运转所需的工作,其实每个人的生活都还有巨大的改善空间。因此,如何解决这些问题,我认为将成为一个饶有趣味的挑战。


被低估的,或许是世界模型,我认为这个概念非常出色。这也是我们在这次讨论中还没有真正涉及到的。我想,您会看到,随着增强现实和虚拟现实技术的进步,这些模型将真的能够在您的眼前生成虚拟世界。我认为那将是非常令人惊叹的景象。坦率地说,我们已经展现出物理学理解能力。具体可能难以一言蔽之,但我认为我们的确有效地展示了对因果关系和物理学的理解,无论是在对物理问题的评估中,还是如果您看过任何视频模型,它们都懂物理。甚至,它们是以一种奇特的、具有泛化能力的方式来理解的。我曾看到一个很棒的视频,有人让一个视频模型  将一个乐高鲨鱼放到水下,模型能够正确地反射乐高积木上的光线,阴影的位置也准确无误。这是它从未见过的场景——完全是泛化的物理学理解。我觉得那非常了不起。那并不在训练数据里。没有水下乐高鲨鱼这样的数据。没有水下乐高鲨鱼。而且,我也希望这种技术能够应用于像虚拟细胞等领域。所以我认为这非常令人兴奋。


关于缺乏探索的应用领域,我认为它们在软件工程领域已经得到了体现,因为对于软件工程师来说,首先,模型在软件工程方面确实更出色;其次,我认为软件工程师能更直观地理解如何解决他们关心的问题。我怀疑在几乎所有其他领域,都还存在巨大的发展空间。您应该期待看到同样的转变发生在其他领域。比如,目前还没有人构建出针对其他任何领域的异步后台软件 AI Agent。甚至可以说,几乎没有任何其他领域出现了接近 Claude Code、Cursor 和 Winsurf 这类工具所实现的反馈循环的应用。所以,如果说有什么领域最缺乏探索,可能就是这些其他领域吧。


关于编码的领先性,的确如此。编码是领先指标。但您应该预见到,基本上其他所有领域都会随之发展。

访谈发布时间:2025年5月23日 

原视频地址:https://youtu.be/W1aGV4K3A8Y?si=jbwq-54zslBseP_z

一起“”三连

(文:Datawhale)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往