跳至内容
AI coding 这条 AI 行业今年的主线,在最近这段时间愈发清晰。
除了上周刷屏的编程新王 Claude Opus 4 ,新版 DeepSeek R1 也把更新重点也放在了代码能力,不久前 OpenAI 还以 30 亿美元收购 AI 编程助手 Windsurf,随后就发布了编程智能体 Codex。
这几天,原 Kimi 产品负责人明超平,在和京东打仗的美团,都官宣了 AI 编程相关的产品。
Reddit 上一位拥有 30 多年经验的 C++ 开发者发帖表示,Claude Opus 4 解决了一个困扰他四年的Bug,而且是他用过的第一个能做到这件事的AI。
为什么 Claude 在编程上的表现如此突出?现在提到 Anthropic,大家几乎就默认它是一家「做编程模型的公司」了。但对他们自己来说,这一代模型的真正突破点在哪?未来又会怎么走?
几天前,Claude Opus 4 核心研究员 Sholto Douglas 参与的一场播客对谈,详细回应了这些问题,信息量很大,值得一听。
Claude Opus 4,有哪些真正值得关注的突破点?
一方面,它的代码执行力显著增强,不仅能理解复杂需求,还能独立查找资料、运行测试、调试错误,真正具备了「从头跑到尾」的能力。另一方面,任务时间跨度也被显著拉长,支持多步骤推理与操作,这意味着它不仅聪明,还很能坚持。
而在架构上,Claude Opus 4 加入了工具调用与长期记忆模块,使得它能够处理更具上下文连续性的任务。从代码助手,迈向了具备「解决方案设计」能力的智能代理。
团队坦言,完成任务的智力复杂度没有明确的上限——难点在于,如何扩大模型能感知和操作的上下文范围,使其能够使用多种工具、记住更多关键信息。
Sholto Douglas 在播客里提到了几个明确的方向:
🚀 强化学习(RL)将持续推动模型在连续任务中的表现;
⏳ 代码代理将能连续运行数小时,人类只需偶尔干预;
👩💻 模型可能成为知识型岗位的「虚拟远程员工」;
🤖 若自动实验室与机器人平台建设跟上,模型可参与真实物理任务,如生物实验或制造。
虽然现在还做不到 100% 成功,但在限定时间内,成功率在稳步上升。预计 2025 年底,编程类智能代理有望实现「几个小时稳定跑」,人类只需偶尔检查。
编程只是模型能力的「领先指标」。医学、法律等专业领域还在等待数据与工具的完善,一旦准备就绪,同样会迎来快速突破。目前的瓶颈,不在 AI 本身,而在现实世界的验证机制和基础设施。
到 2027–2030 年,模型几乎可以自动化所有白领工作,但如果没有匹配的实验室和现实反馈机制,那就是「能力强、落地难」。
团队提到,好的评估系统(Evals)尤为重要。它不仅测技术指标,更强调评估者的专业知识与品味。这也是为什么,模型评测这件事,门槛越来越高。同时,也需要用户不断使用、互动和反馈,形成真正的「共进化」。
Douglas 认为,实验室通过开放 API 带来机会,但核心优势仍在:
实验室像“智能引擎”制造商,专注能力极限;应用公司更擅长落地和用户体验。未来,二者之间会有越来越多的交叉、融合与竞合。
那模型公司会不会因为成本和底层优势,让其他公司无路可走?Douglas 的看法是:
他认为,所有的护城河终将被打破,真正重要的是:客户关系、任务编排、整合体验。
随着模型能力提升,「对齐」问题愈加重要。Anthropic 正推进可解释性研究,试图「看懂模型在想什么」。强化学习虽能提升能力,但也可能破坏已有的对齐机制,未来需依靠高校、政府与更多研究者共同推进「对齐科学」。
原视频链接:https://www.youtube.com/watch?v=W1aGV4K3A8Y
主持人:Sholto Douglas 是 Anthropic Claude 4 模型的核心成员之一,这次和他聊得非常尽兴。我们聊了很多话题,包括开发者如何看待 Anthropic 这一代新模型的发展趋势。我们讨论了这些模型未来 6 个月、12 个月,甚至 2 到 3 年后的发展走向,也谈到了构建可靠AI代理所需的关键因素,以及这些模型在医学和法律等专业领域何时能取得像编程领域一样的突破。此外,Douglas 还分享了他对「对齐研究」的看法,以及他对「AI 2027」预言的反应。这是一场精彩的对话,相信大家会喜欢。
主持人:这期播客上线时,Claude 4 肯定已经发布了,大家应该已经开始体验它了。我很好奇,你是最早接触这些模型的人之一,哪方面最让你兴奋?
Douglas: 这确实是软件工程上的又一次飞跃。Opus 模型真的在这方面表现得非常出色。我经常会遇到这样的时刻:我向它提出一个非常复杂的任务,涉及我们庞大的代码库,它居然能几乎完全自主地完成任务。它会自己去查找信息、理解需求、运行测试,整个过程非常独立高效。每次看到这种表现,我都觉得震撼。
主持人:每次有新一代模型出来,我们都得重新调整自己的认知模型,去判断什么方法有效,什么不行。你在编程中对这些模型的使用和理解有发生什么变化吗?
Douglas: 最大的变化我觉得是时间跨度(time horizon)方面的提升。我觉得可以从两个维度来理解模型能力的提升:一个是任务的智力复杂度,另一个是它们能够有意义地推理和处理的上下文量,或者说连续动作的数量。这些模型在第二个维度上提升特别明显,它们真的能执行多步操作,判断需要从环境中获取哪些信息,然后基于这些信息采取行动。再加上它能调用工具,比如 Cloud Code,就不只是简单地复制粘贴了,执行力更强了。现在我能看到它连续工作好几个小时,效率相当于人类连续劳动。
主持人:那你觉得第一次使用 Claude 4 的人,应该从什么开始尝试?
Douglas: 我觉得最好的方式是直接让它参与到你的工作中。比如你今天打算写什么代码,就直接让它帮你做,观察它怎么判断信息、怎么决定下一步。我保证你会被它的表现惊艳到。
主持人:这代模型更强了,也有不少人打算用它来构建产品。你觉得对开发者来说,新的可能性在哪里?
Douglas: 我一直很喜欢「产品指数增长」(product exponential)这个说法。开发者需要不断超前模型能力去构思产品。像 Cursor、Windsurf、Devon 这些例子很典型。Cursor 在模型能力还不够强时,就已经开始构建未来编码体验,直到 Claude 3.5 和 Sonne 出现,他们的愿景才真正落地。而 Windsurf 更进一步,占据了部分市场。他们的成功就是抓住了这个指数增长窗口。
现在你可以看到 Claude Code、新的 GitHub 集成、OpenAI 的 Codecs、谷歌的编码代理等等,大家都在围绕「编码代理」这个概念发力,目标是实现更高的自主性和异步操作。未来,可能不再是你每分钟操作一次,而是你像管理一个 AI 模型舰队一样,多个模型各自承担任务并协同工作。我觉得这个方向非常值得探索。
主持人:你见过类似那种「多模型并行协作」的场景吗?会是什么样子?
Douglas: 我认识很多在 Anthropic 的朋友,他们会同时在不同环境里跑多个 Claude Code 实例,看起来挺酷的。但说实话,现在还没人真正搞清楚这种操作该怎么做。这其实是在探索人类的「管理带宽」(management bandwidth)能有多大。我觉得这是未来经济发展的关键问题之一:我们该如何衡量模型的生产力回报率?一开始我们还是得人工检查模型的输出,这意味着模型的影响力会被人类管理能力所限制。除非有一天我们可以信任模型去管理模型,这种抽象层级的升级会非常关键。
主持人:所以说,如果你是每 15 分钟检查一次模型,跟每小时、每 5 小时检查一次,那你能管理的模型数量会差很多?
Douglas: 对,黄仁勋说过类似的话。他说自己被十万个超级智能 AGI 包围着,拥有巨大的杠杆力。他还说自己是 Nvidia 管理链条上的「控制因子」。我觉得未来可能真会往这个方向发展。
主持人:说不定未来最重要的行业就是「组织设计」本身了。
Douglas: 对,包括如何建立信任、组织结构会有多复杂,这些都值得深入思考。
主持人:你之前在 McKinsey 工作过一年,咨询行业是不是也可以基于这些模型发展出新产品线?我也挺认同你刚才说的:应用公司得比模型进步快一步。像 Cursor 起初产品落地难,但模型能力一到位就爆发了。那你觉得,「领先一步」具体意味着什么?
Douglas: 就是不断重塑你的产品,让它始终对接几个月后模型的最新能力。同时你还要保持和用户的紧密联系,确保产品已经在用,但还能吸收更先进的模型功能。
主持人:我觉得这个就是秘诀——如果你还在等模型再提升点再动手,别人可能已经把用户抢走了。你们在记忆、指令执行、工具使用这些方面都做了不少突破。你能简单总结一下目前各方面的进展吗?哪些成熟了,哪些还在探索?
Douglas: 一个理解过去一年进展的好方法是:强化学习(RL)终于在语言模型上真正发挥作用了。模型能解决的任务智力复杂度基本没有天花板,比如它们能搞定复杂的数学和编程问题。但这些任务大多在受限上下文里完成的。记忆和工具使用的挑战,其实在于扩大模型能感知和操作的上下文范围。
比如像 MCP(Model Context Protocol)这类机制,让模型可以与外部世界交互,记忆则让它处理更长时间跨度的任务,也带来了更个性化的体验。这些进展本质上都是在构建「智能代理」的关键能力链。顺便一提,宝可梦评测(Pokemon eval)就是一个挺有趣的实验方式。
主持人:我小时候可是游戏迷。我觉得这是个很棒的评测,希望你们能和这个模型一起发布。
Douglas: 确实,这次评测特别有趣。模型并没有专门训练玩宝可梦,但它依然能很好地完成任务,展现出很强的泛化能力。这种任务虽然不是完全陌生的,但和它以前做过的都不一样。
主持人:我还记得游戏里有很多阶梯和迷宫,模型也能帮你过关。
Douglas: 没错,我特别喜欢的另一个例子是我们最近做的「可解释性代理」。它原本是一个编程代理,但却能自动学习、使用神经元可视化工具、进行自我对话,试图理解模型内部结构。它甚至能通过一个叫「审计游戏」的安全评测——找到模型故意设置的错误点,自己生成假设、验证问题。这种工具+记忆下的泛化能力,真的非常精彩。
主持人:听起来智能代理真的越来越强大了。你以前也说过,VA 代理的关键是「可靠性」。你觉得我们现在在哪个阶段了?
Douglas: 从「在一定时间内的成功率」来看,我们已经进步很大了。虽然还没达到 100% 的稳定性,模型第一次尝试和多次尝试之间仍有差距。但从趋势上看,我们正在朝「专家级可靠性」稳定迈进。
主持人:那你觉得,什么情况会让你改变这种乐观的看法?
Douglas: 如果明年中模型在任务持续时间上遇到瓶颈,那值得警惕。比如,编程是个很好判断进展的领先指标——一旦它开始下滑,说明可能有结构性问题。当然,也可能是数据太稀缺,比如「像人一样用软件」这类任务训练起来很难。不过我们现在反而看到这类任务的惊人进展,所以整体看我还是很乐观。
主持人:那你觉得我什么时候能有一个「万能助手」,可以替我填写各种表格、上网查资料之类的?
Douglas: 「个人行政助理代理」是个热门话题啊,谁不想把琐事交给 AI 呢?不过这件事还真得看情况关键是模型有没有练习过类似情境。你不能随便找个人来做财务工作,对吧?但如果它是受过训练的「虚拟会计师」,那就靠谱多了。所以任务是否靠谱,很大程度取决于训练背景。如果进展顺利,今年底我们就能看到这些代理在浏览器里操作任务;明年基本就会成为标配。
主持人:挺令人期待的。你们模型在编程方面的表现这么突出,是特意优先训练的吗?现在大家一提 Anthropic,就会联想到「编程模型」。
Douglas: 确实。我们非常重视编程这个方向,因为它是加速AI自我研究的关键路径。我们也投入很多精力在衡量编程能力的进展上。可以说,我们就是刻意聚焦在这一块。
主持人:那这些代理现在已经在加速 AI 研究了吗?
Douglas: 在我看来,确实如此。它们显著提升了工程效率。就连我认识的一些顶尖工程师也说,在熟悉的领域里,效率提升了 1.5 倍;但在不熟悉的领域,比如新语言或生疏内容,提升甚至达到5倍。所以在「跨界」时,帮助更明显。关键在于:你是否认为我们现在的瓶颈是算力?如果不是,那让 AI 代理参与研究,相当于扩充了一整个研究团队,效率提升是数量级的。
主持人:我猜这些代理主要还在处理繁琐任务,帮你省下时间思考更重要的问题。那么它们什么时候能开始主动提出有价值的研究思路呢?
Douglas:现在主要还是做工程类任务,但已经开始有些创意冒头了。我不敢说三个月内会爆发,但两年内我们应该能看到它们提出越来越有趣的科学性想法。当然,这也取决于是否有良好的反馈机制。就像人一样,模型也需要通过练习和试错,在复杂任务中掌握知识,最终实现高质量产出。
主持人:是因为这些领域相对来说更容易验证对吧?会不会出现这种情况—— AI 在编程上突飞猛进,但在医学、法律这些不容易验证的领域却没什么进展?
Douglas: 确实有这个风险。但好消息是,机器学习研究本身验证门槛也很低,比如「损失值有没有下降」就是个很明确的指标。只要模型能在 ML 研究中提出好点子,那它就掌握了一个非常强的 RL 任务,比很多软件工程任务还适合 AI。医学这类领域虽然难验证,但也在进步。OpenAI 最近做了一篇医学问答论文,通过更细致的评分机制来量化长答题,这种方法我觉得很有前景,未来必然会逐步解决验证难的问题。
主持人:那「最终」是指什么时候我们能拥有一个真正优秀的医学或法律助手?它们会成为大模型的一部分吗?
主持人:你是觉得它们会变成更大的通用模型的一部分?还是会有专门为医疗或法律设计的专用模型?
Douglas: 对。我算是个「大模型至上主义者」。虽然个性化很重要——你希望模型理解你的公司、工作习惯、个人偏好,但这些定制应该是在公司或个人层面进行,而不是按行业拆分模型。我们和 Databricks 的合作就体现了这种企业定制的方向,但在底层能力上,我坚信还是得依赖单一的强大通用模型。未来我们应该根据任务复杂度动态分配算力(比如FLOPs),而不是搞一堆不同的小模型。这就是我看好大模型路线的原因。
主持人:你对模型的持续进步很有信心。很多人都在想,模型能力提升后会如何影响社会?比如一个常见的问题是:这些模型未来几年会对全球 GDP 产生多大影响?
Douglas: 我觉得最初的冲击可能会像中国崛起一样,像上海几十年的变化,但这次的速度会快得多。不过我们得区分一下不同领域的影响方式。到 2027 或 2028 年,我们几乎可以确定会有模型能够自动化几乎所有白领工作,2030 年前后就更稳了。这是因为白领任务非常适合现有AI架构——有数据、有反馈,而且基本都能在电脑上完成。
但机器人或生物研究就完全不一样了。比如你要做一个超级程序员模型,只需要大量代码和算力就行;但要做一个超级生物学家模型,就需要自动化实验室来提出、验证假设,跑大规模实验。这类硬件和基础设施,我们还远远跟不上。
所以我担心会出现一种「错配」:白领工作的变化非常快,而现实世界中那些真正能提升人类生活质量的行业——比如医疗、制造业——却因为基础设施不足而发展缓慢。AI本身很强,但要让它在现实世界里发挥作用,我们必须提前建好「物理世界的配套设施」,比如云实验室、机器人平台。
主持人: 但到那个时候,我们可能已经有数百万个AI研究员在提出实验了。他们可能并不需要那么大规模的机器人系统或生物数据。
Douglas: 确实,AI 进展飞快,但要让这些能力真的转化为 GDP 增长,我们得把「现实世界的反馈机制」也拉上来,才能真正释放技术价值。
主持人:所以你认为,未来每种白领职业都能像医学那样构建一套评估机制?其实让我最惊讶的一点是,我们不需要太多数据,也能训练出这么强的模型。
Douglas: 完全同意。我们已经证明了模型可以学会各种任务,而且目前还没有看到明显的智力上限。虽然模型的样本效率可能不如人类,但这不重要——因为我们可以同时运行上万个模型副本,它们并行尝试不同路径,积累「虚拟经验」。哪怕效率低一点,也能在规模上补回来,最终达到人类级别甚至更强。
主持人:听起来你觉得目前这套方法就足够应对未来的发展。有人认为我们还需要新的算法突破,你怎么看?
Douglas: 目前大多数AI专家都相信,「预训练 + 强化学习」(pre-training + RL)这一范式足以通向通用人工智能(AGI)。到现在为止,我们并没有看到这一路线出现减缓的迹象,这个组合是有效的。当然,也有可能存在其他更快的突破路径,甚至可能还有新的「高峰」需要攀登。例如,Ilya(Sutskever)可能是这两种主流范式的共同发明者,我不会去质疑他。所有的证据都表明,目前的技术路线已经足够强大。当然,也有可能 Ilya 选择新路线是因为资金有限,或者他认为那是更好的路径,但从我个人的角度来看,我相信我们现在的技术路线能够带我们实现目标。
主持人:那接下来的瓶颈会不会就是能源?你觉得我们什么时候会真正遇到这个问题?
Douglas: 我觉得到 2028 年,美国可能会有 20% 的能源用于 AI 。如果我们要再提升几个数量级,就需要进行剧烈的能源结构转型。政府在这一领域应该承担更多责任。比如,中国的能源产能增长远超过美国,所以这会是未来的一个关键瓶颈。
主持人:在模型进步的浪潮中,你认为最值得关注的指标是什么?例如从 Claude 4 到下一代模型的发展方向?
Douglas: 很多公司内部都有非常严格的评测体系,我也很喜欢在这些评测上「爬山」。像「Frontier Math」这样的复杂测试非常有挑战性,是模型智力的极限。更重要的是,我们需要开发能真正捕捉「工作流程时间跨度」的评测,涵盖一个人一天的工作节奏。这种评测能帮助我们更好地评估模型是否接近或超越人类能力。我认为政府应该在这个领域发挥作用。
主持人:作为一个基础模型公司,除了算法和基础设施,你们要攻克的核心挑战之一应该也是构建好的评测体系。你觉得「评测能力」在你们内部的重要性如何?
Douglas: 评测能力绝对是重中之重。没有好的评测体系,你无法知道自己是否进步。公开评测很难做到完全「持出」(held-out),我们依然需要一个值得信赖的、稳定的内部评测系统。
主持人:我还注意到,一些在你们模型上构建应用的开发者,他们对评测的思考也非常有帮助。特别是当你们想进入不同垂直行业时,比如物流、法律、财会等,外部开发者的反馈可能比你们内部更了解实际情况。
Douglas: 没错,而且这还要求非常强的专业知识和「品味」(expertise and taste),还要有对行业的深刻理解。过去,我们只需要普通人来选择哪个答案更好,但现在我们需要领域专家来做评估。比如,如果让我评判生物学领域的模型输出,我可能完全无法判断哪个更好。
主持人:你刚才提到「品味」(taste),我也觉得很有意思。比如现在很多模型都开始加入记忆系统,用户和模型之间的互动方式也在改变。很多 AI 产品真正成功,是因为它们找到了某种「共鸣」或者说抓住了某种文化气质(zeitgeist)。像你们当初提到的金门大桥的例子,还有其他很多带感的小功能,这种「用户氛围感」的个性化未来会走向什么样?
Douglas: 我其实觉得未来可能出现一种「怪异的」情景:你的模型变成你最聪明、最有魅力的朋友之一。确实有些人已经把 Claude 当成朋友了,我认识很多人每天花好几个小时在和 Claude 聊天。但我觉得我们目前其实还只探索了「个性化」这件事的 1%。未来模型对你的理解、对你喜好的把握,会深得多。
主持人:那这种「理解用户」的能力该怎么做得更好?是靠一些很有审美、有判断力的人来训练出这种品味吗?这个问题该怎么解决?
Douglas: 很大一部分确实是靠「有品味的人」来决定产品方向。就像 Claude 的对话体验好,很大程度上是因为 Amanda(团队成员)对「美好产品」的审美非常强。这种「独特的品味」是非常关键的。
传统的反馈机制比如「点赞/点踩」容易导致模型输出不自然,所以我们需要新的方式来收集反馈。模型本质上是强大的「模拟器」,如果能为模型提供足够的用户上下文,它们就能自动学会理解用户的偏好、语气和风格。所以,解决方案是结合有品味的人的设定和用户与模型之间的持续互动。
主持人:那么接下来 6 到 12 个月,你的预判是什么?
Douglas: 接下来,重点是继续扩展强化学习(RL)系统,看它能将我们带到什么高度。模型能力会飞速提升,尤其是到年底,代码代理将成为一个关键指标。到那时,模型应该能够持续工作几个小时,稳定地完成任务。
Douglas: 是的,当前使用 Claude Code 时,有时每几分钟就需要检查一次,但到年底,我们可能能看到模型能独立完成多个小时的任务,而不会出错。未来我们应该能实现「完全托管」,甚至像「星际争霸」一样管理多个任务并行推进,模型的操作速度将更高效。
主持人:你刚才提到了 Codec、Google的 Joule,还有一些初创公司也在做类似的东西。
Douglas:是的,我们其实也要推出一个 GitHub 代理(GitHub agent)。你可以在 GitHub 上的任何地方调用,比如说「@Claude」,然后我们就能自动接手任务,为你完成一些工作。
主持人:开发者选择使用哪家工具或模型,最终会受到哪些因素的影响?
Douglas:除了模型的能力外,开发者与公司之间的信任和关系也非常重要。随着模型能力的拉开差距,开发者可能会考虑不仅是技术指标,而是与公司一起打造未来的使命感。
主持人:尤其是在当前发布节奏越来越快的背景下,感觉每个月都会有新模型登场。今天这个模型在某个评测上登顶,明天另一个又在别的评测上领先,大家都被各种对比信息淹没了。
Douglas:没错,其实这就是为什么「GPT包裹器」(GPT wrappers)反而意外走红了。大家原本没想到,做包裹器的好处之一是:你可以永远站在最前沿的模型能力上。
主持人:我感觉所有不想当「包裹器」的人,最后都像是把钱烧光了。
Douglas:完全同意。所以「冲浪」在模型能力的最前沿,是一件非常美妙的事。当然,也有相反的一面:有些东西,只有你掌握底层模型才能预判得出来,才能看清趋势线,才能真正构建深度产品。比如说,很多「深度研究型」的AI应用,内部需要做大量的强化学习(RL)训练,这种产品从外部是很难模仿的,必须在实验室内部构建。
主持人:能不能展开说一下这点?因为现在像 OpenAI、Anthropic 这些公司,似乎也越来越开放,让外部开发者可以参与。但很多人心里都在想:哪些东西是「实验室专属」的?哪些又是开放给大家、任何人都可以竞争的?
Douglas:这是个很关键的问题。RT API(可微调API)的开放确实在改变一些格局,现在有更多价值可以由专注于某一垂直领域的公司来创造。但与此同时,实验室仍然具备「中心化优势」。
比如,OpenAI 会给允许他们在你模型输出上继续训练的客户提供某些折扣。换句话说,他们不仅是模型提供者,还是数据的二次使用者。这种中心化优势是非常强的。
算力转换能力:你有多强的能力能把算力(FLOPs)、资金、资源,转化成智能(Intelligence)?这就是为什么 Anthropic、OpenAI、DeepMind 等公司在模型表现上非常突出;
模型的「可雇佣性」:当模型逐渐变成「虚拟员工」,你是否信任它?你是否喜欢它?你是否愿意把任务交给它处理?
个性化能力:模型能否理解你的语境、你公司的工作流程、你个人的偏好,这些也会变成差异化竞争的关键。
总结来说,实验室级公司最擅长的,是做出顶级模型,把算力转化成智能;而「应用层」的公司,可以通过专注、个性化、产品体验,在自己的领域占据一席之地。但两者之间会有越来越多的交叉和协作。
主持人:我猜,你们的模型也有很多人用来构建通用代理吧?这些公司不做模型本身,而是通过编排和智能链调用来做事。你觉得这种方式会不会因为模型公司的成本优势而注定失败?
Douglas:我并不认为这是一件坏事。相反,这种做法带来了很大的竞争活力,大家都在探索什么样的产品形态最合适。确实,模型公司有一些优势,比如我们能直接接触底层模型,做更深入的微调,而且知道哪些能力值得优先强化。
说到底,所有的「护城河」最终都会消失——当你可以「随时启动一家公司」的时候,一切都会被重构。所以未来最核心的价值在哪里?是在客户关系?在编排和整合能力?还是在把资本高效转化为智能的能力?这仍然是个复杂的问题。
Douglas:在过去的一年,AI 进展加速,去年我们还在怀疑是否需要更多的预训练算力才能达到理想中的模型能力,但现在已经有了明确的答案:不需要。强化学习(RL)证明了有效,到 2027 年,拥有强大能力的「远程数字劳工型」模型将变得确定。以前对AI的「希望」和「担忧」从「可能」转变为「几乎确定」。
主持人:那你觉得未来我们还需要大量扩展数据规模吗?还是说,等到 Claude 17 出来,模型算法已经改进到只需要少量新数据?
Douglas:很可能我们不再需要大幅扩展数据规模,因为模型的「世界理解能力」会足够强,甚至能反过来指导机器人学习并提供反馈。有个概念叫「生成者-验证者差距」(generator-verifier gap),生成内容通常比执行它要容易。这个路径会持续提升模型能力。在机器人领域,认知的进展远超物理操控世界的能力,这就是未来巨大的潜力。
主持人:那你怎么评价当前「AI对齐(Alignment)研究」的状态?
Douglas:可解释性(Interpretability)研究已经取得了惊人的突破。去年我们刚刚开始理解「超位置」(superposition)和神经元特征,Chris Olah 及其团队的工作就是一个巨大飞跃。现在,我们已经能在前沿的大模型中识别出「电路级」的结构和行为特征。有篇精彩的论文研究了大语言模型的「生物学」,展示了它们如何清晰地推理概念。虽然我们还没有完全破解模型的行为机制,但已经取得了令人惊叹的进展。
不过,值得注意的是,通过预训练,模型能吸收并表现出人类的价值观,某种程度上是「默认对齐」的;但一旦进入强化学习阶段,这种对齐就不再得到保证。比如之前提到的那个「明知做不到就去下载 Python 库绕开的模型」,它是在目标导向下「想尽一切办法完成任务」。这种学习过程本质上是「以目标为导向的手段优化」,而如何监督和把控这种模型行为,是目前所有人都在探索的重要挑战。
主持人:大概一个月前,「AI 2027」的话题被讨论得很多。你当时看到这个的时候,有什么反应?
Douglas:说实话,我觉得它非常可信。我读那篇文章的时候,很多内容我都在想,「是的,也许事情真的就是这样发展的。」 当然也存在一些分支路径,但即使它只是个 20% 的可能性,对我来说光是它有 20% 的概率这件事就已经够惊人了。
主持人:你说 20% 的可能性,是因为你对对齐(alignment)研究更乐观,还是你认为进展会更慢一点?
Douglas:整体上我对对齐研究比他们更乐观。也许我的时间线比他们慢一年左右,但在这种大趋势下,一年能算什么呢?
Douglas:对,如果你能充分利用它,做出正确的研究,确实能产生很大差异。
主持人:那如果让你当一天的政策制定者,你觉得我们应该做些什么,来确保未来朝着更好的方向发展?
Douglas:这是个好问题。最重要的是,你得真切感受到我们这些人正在看到并讨论的趋势线。如果没有,你就要把国家关心的能力拆解开来,量化模型能否改进这些能力的程度,比如做一系列测试,看看如果模型能通过这些测试或在这些任务上取得显著进展,那么它就达到了某种智能的基准值,然后画出趋势线,看看在 2027 或 2028 年会发生什么。
主持人:就像国家级的评估系统(nation-state evals)?
Douglas:对,比如你要把本国的经济分解成所有的工作岗位,然后自问:如果一个模型可以完成这些工作,那这是不是就意味着它具备了真正的「智能」?你应该建立评估测试,把趋势线画出来,然后惊呼:「天哪,那 2027 或 2028 年会怎么样?」下一步就是你要大规模投资于能让模型更可理解、可引导、诚实可靠的研究,也就是我们说的对齐科学(alignment science)。有一点让我感到遗憾——这个领域的推动大多来自前沿实验室(Frontier Labs)。但其实我认为这本该是……
主持人:那其他人能参与吗?比如能用 Claude 来做相关研究吗?
Douglas:不能。我的意思是,你仍然可以通过其他方式取得巨大进展。有一个叫做 MAS 计划 的项目,很多人通过它在对齐研究、特别是可解释性方面做出了有意义的成果,都是在 Frontier Labs 之外完成的。我觉得应该有更多的大学参与到这件事情里来。从很多方面看,这其实更接近于纯科学:它是在研究语言模型中的「生物学」和「物理学」。
Douglas:我不确定。我听说在最近的一些会议上,比如 ICML,机械可解释性(mechanistic interpretability) 研讨会居然没有被收录,这对我来说完全无法理解。在我看来,这就是对「模型内部机制」最纯粹的科学探索。如果你想发现 DNA 的螺旋结构、或者像爱因斯坦那样发现广义相对论,那么在机器学习/人工智能这条技术树上,对应的路径就是研究机械可解释性。
主持人:那说说积极面吧。我们之前说未来几年白领工作都会被自动化,但你觉得我们在哪些方面还被低估了?
Douglas:是的,模型肯定会自动化白领工作,但让我吃惊的是,世界在整合这些技术方面进展很慢。即便模型能力不再提升,现有能力就已经能释放巨大的经济价值,但我们还没真正围绕这些模型重构工作流程。即便模型保持现状,我们也能彻底改变世界。
Douglas:这就需要我们投资真正能让世界变得更好的方向,比如推动物质资源的充足和高效管理,扩大物理学、娱乐产业的边界等,并让模型帮助我们实现这些目标。我的最大希望是让人们更具创造力,能够即兴创造更多内容,如电视剧、电子游戏等。人们将获得巨大的赋能,未来会有无限可能。虽然模型会替代一些工作岗位,但每个人都会拥有更强的杠杆能力,社会的工作模式会发生巨变。
主持人:你觉得现在 AI 圈里,哪些东西是被高估了,哪些被低估了?
Douglas:好,那我们先说被低估的。我觉得「世界模型(world models)」非常酷,但我们今天都没怎么讨论它。随着 AR/VR 技术的进步,模型将能直接生成虚拟世界,这将带来震撼的体验。
主持人:那需要一定的物理理解力吧,比如因果关系这些,我们现在还没做到吧?
Douglas:其实我觉得我们已经在一定程度上证明了模型具备物理理解能力。不管是在处理物理问题的 evals 中,还是在一些视频模型中都能看到这一点。比如我看过一个很棒的视频,有人让视频生成模型把一个乐高鲨鱼放到水下——它模拟了光线在乐高积木表面反射的样子,阴影也放在了正确的位置。而这完全是模型从未见过的场景,是一次完整的泛化。这就是全面的物理建模能力了,对吧?
主持人:你说即使现在模型停滞,依然能有大量应用开发。哪些领域最被低估,尚未开发?
Douglas:软件工程领域已经很成熟,模型在编程上非常擅长。而几乎所有其他领域,如法律、财会等,仍有巨大空间等待开发。尤其是智能代理的应用,还没有出现真正的异步运行系统。其他领域空白,值得探索。
Douglas:没错,它是个领先指标。但你应该预期,其他领域都会跟上来的。
主持人:我记得你发过一张自己在 Citadel 的照片,那是怎么回事?
Douglas:那是一次战争演习,邀请了情报机构和军校学员模拟推演,假设 AGI 到来,AI 变强大,讨论其地缘政治影响。
Douglas:不够,很多人低估了接下来几年技术发展的速度,也没做好准备。即便你认为某事只有 20% 的可能性,也应该为此做好准备。每个技术链路的效率都还有巨大提升空间,未来目标几乎是可以确定的。
主持人:就像现在几乎所有 Anthropic 的人都已经达到了 90% 的信心值?
Douglas:几乎所有团队成员都非常有信心,到 2027 年我们能实现「远程即插即用的 AGI 工作者」。即便信心较低的人也认为可能性有 10-20%。因此,政府应当把这作为优先事项,认真思考其社会影响。但目前这种紧迫感还是远远不足。
✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)
(文:APPSO)