GPT-5、 Opus 3.5为何迟迟不发？新猜想：已诞生，被蒸馏成小模型来卖

选自The Algorithmic Bridge

作者：Alberto Romero

机器之心编译

「从现在开始，基础模型可能在后台运行，让其他模型能够完成它们自己无法完成的壮举——就像一个老隐士从秘密山洞中传递智慧。」

最近几个月，从各路媒体、AI 社区到广大网民都在关注 OpenAI 下一代大模型「GPT-5」的进展。

我们都知道 OpenAI 在研究新模型，新模型可能遭遇了困难无法按计划推出，但如果有人说 GPT-5 已经在某个地方塑造世界了，你会怎么想？

假设如下：OpenAI 已经构建了 GPT-5，但将其应用在了内部，因为这样做投资回报远高于将其发布给数百万 ChatGPT 用户。此外，他们获得的投资回报不是金钱。如你所见，这个想法很简单，难就难在如何将那些细枝末节的线索联系起来。最近，技术分析师 Alberto Romero 深入探讨了这个思路。

首先澄清一下：这并不是 100% 可靠的猜测。证据是公开的，但没有泄密或内幕传言证实该想法是对的。作者没有获得独家信息 —— 如果有，也无论如何都会签署保密协议。不过，至少从逻辑上讲，这个猜想看起来很有说服力。

让我们看看这篇文章是怎么说的。

原文地址：https://www.thealgorithmicbridge.com/p/this-rumor-about-gpt-5-changes-everything

一、Opus 3.5 的神秘消失

在介绍 GPT-5 之前，我们必须先去拜访它的远亲，同样失踪的 Anthropic 的 Claude Opus 3.5。

如您所知，海外三大人工智能实验室 OpenAI、Google DeepMind 和 Anthropic 提供了一系列覆盖各价位段、延迟与性能范围的大模型服务。OpenAI 提供了 GPT-4o、GPT-4o mini 以及 o1 和 o1-mini 等；Google DeepMind 提供 Gemini Ultra、Pro 和 Flash；而 Anthropic 有 Claude Opus、Sonnet 和 Haiku。

他们的目标很明确：迎合尽可能多的客户。有些人优先考虑顶级性能，而另一些人则寻求负担得起、足够好的解决方案，至此一切都很好。

但 2024 年 10 月发生了一件奇怪的事情。每个人都期待 Anthropic 宣布推出 Claude Opus 3.5 以回应 GPT-4o（于 2024 年 5 月推出）。然而到 10 月 22 日，他们发布了 Claude Sonnet 3.5 的更新版本（人们开始称之为 Sonnet 3.6）。Opus 3.5 却不见了，似乎 Anthropic 没有了 GPT-4o 的直接竞争对手。到这里研究进度似乎出现了问题。以下是人们所说的内容以及 Opus 3.5 实际发生的事情：

10 月 28 日，有传言称 Sonnet 3.6 是…… 备受期待的 Opus 3.5 训练失败的中间检查点。r/ClaudeAI subreddit 上出现了一篇文章称 Claude 3.5 Opus 已被废弃，并附有指向 Anthropic 模型页面的链接。截至今天，该页面没有提及 Opus 3.5。有人猜测，删除 Opus 3.5 是为了在即将到来的融资轮之前保持投资者的信任而采取的战略举措。
11 月 11 日，Anthropic 首席执行官 Dario Amodei 在 Lex Fridman 播客上否认他们已经放弃 Opus 3.5，从而消除了谣言：「没有给出确切的日期，但据我们所知，计划仍然是推出 Claude 3.5 Opus。」态度谨慎，但是确认。
11 月 13 日，彭博社的报道证实了之前的传言：「经过训练后，Anthropic 发现 3.5 Opus 在评估中的表现优于旧版本，但考虑到模型的大小以及构建和运行的成本，其优势并没有达到应有的程度。」Dario 似乎没有给出日期，因为尽管 Opus 3.5 的训练运行没有失败，但其结果却不尽如人意。请注意，重点是相对于性能的成本，而不仅仅是性能。
12 月 11 日，半导体专家 Dylan Patel 和他的 Semianalysis 团队给出了最后的情节转折，提出了一个将所有数据点编织成一个连贯故事的解释：「Anthropic 完成了对 Claude 3.5 Opus 的训练，它表现良好，并且能够适当扩展…… 但 Anthropic 并没有发布它。这是因为 Anthropic 没有公开发布，而是使用 Claude 3.5 Opus 来生成合成数据并进行奖励建模，从而与用户数据一起显著改进了 Claude 3.5 Sonnet。」

简而言之，Anthropic 确实训练了 Claude Opus 3.5 大模型。他们放弃了这个名字，因为它还不够好。Dario 相信不同的训练尝试可以改善结果，因此避免给出发布日期。彭博社证实结果比现有模型更好，但不足以证明推理成本是合理的。Dylan 和他的团队发现了神秘的 Sonnet 3.6 和失踪的 Opus 3.5 之间的联系：后者正在内部用于生成合成数据以提高前者的性能。

二、更好的模型变得更小，更便宜？

使用强大、昂贵的模型生成数据来提升略弱但更便宜的模型性能的过程被称为蒸馏。这是一种常见做法。这种技术允许 AI 实验室将他们的小型模型提升到仅靠额外预训练无法达到的水平。

蒸馏有多种方法，但我们不会深入讨论。你需要记住的是，作为「教师」的强大模型将「学生」模型从 [小、便宜、快速]+ 弱变成 [小、便宜、快速]+ 强大。蒸馏将强大模型变成金矿。Dylan 解释了为什么 Anthropic 对 Opus 3.5-Sonnet 3.6 这对模型这样做是有意义的：

推理成本（新 Sonnet 与旧 Sonnet 相比）没有显著变化，但模型性能提升了。为什么要发布 3.5 Opus 呢？从成本角度来看，相比发布经过 3.5 Opus 进一步后训练的 3.5 Sonnet，这样做在经济上是不合理的。

我们又回到了成本问题：蒸馏能在保持推理费用低廉的同时提升性能。这立即解决了彭博社报道的主要问题。Anthropic 选择不发布 Opus 3.5 不仅仅是因为性能不佳，而是因为它在内部更有价值。（Dylan 说这就是为什么开源社区能这么快赶上 GPT-4—— 他们直接从 OpenAI 的金矿中获取黄金。）

最惊人的发现是，Sonnet 3.6 不仅仅是好 —— 它达到了 SOTA 水平，比 GPT-4o 更好。由于从 Opus 3.5 蒸馏（可能还有其他原因，五个月在 AI 时间里很长），Anthropic 的中端模型超越了 OpenAI 的旗舰产品。突然间，高成本作为高性能的代理指标被证明是错误的。

「bigger is better」怎么了？OpenAI 的 CEO Sam Altman 警告说这个时代结束了。一旦顶级实验室变得神秘，小心翼翼地保护他们珍贵的知识，他们就停止分享数字。参数数量不再是可靠的衡量标准，我们明智地将注意力转向基准性能。OpenAI 最后一次正式披露的模型大小是 2020 年的 GPT-3，拥有 1750 亿参数。到 2023 年 6 月，有传闻称 GPT-4 是一个专家混合模型，总计约 1.8 万亿参数。Semianalysis 后来在详细评估中证实了这一点，得出 GPT-4 有 1.76 万亿参数的结论。这是 2023 年 7 月的事。

直到 2024 年 12 月，那是在一年半后，EpochAI（一个专注于 AI 未来影响的组织）的研究员 Ege Erdil 在文章《Frontier language models have become much smaller》中估计，领先的 AI 模型（包括 GPT-4o 和 Sonnet 3.6）比 GPT-4 小得多（尽管两者在基准测试中都优于 GPT-4）：

……GPT-4o 和 Claude 3.5 Sonnet 等当前的前沿模型的参数量可能比 GPT-4 小一个数量级：4o 大约有 2000 亿参数，3.5 Sonnet 大约有 4000 亿参数…… 考虑到我得出这个数字的粗略方式，这些估计值可能有 2 倍的误差。

他为什么能在实验室没有发布任何架构细节的情况下得出这些数值？他深入解释了原因。但这个原因对我们来说并不重要。重要的是迷雾正在散去：Anthropic 和 OpenAI 似乎都在遵循类似的轨迹。他们最新的模型不仅更好，而且比上一代更小更便宜。我们知道 Anthropic 的做法是将 Opus 3.5 蒸馏成 Sonnet 3.6。但 OpenAI 是怎么做的呢？

三、AI 实验室背后的推动力普遍存在

人们可能认为 Anthropic 的蒸馏方法源自自身特有的情况 —— 即 Opus 3.5 训练结果令人失望。但实际上，Anthropic 的情况绝不是特例。Google DeepMind 和 OpenAI 也报告称，他们最新的训练结果不太理想。（需要强调，不理想并不等于模型更差。）对我们来说，造成这种情况的原因并不重要：数据不足导致的收益递减、Transformer 架构固有的限制、预训练 Scaling Law 陷入停滞等。无论如何，Anthropic 的特有情况实际上相当普遍。

但还记得彭博社的报道吗：只有把成本放在一起考虑时，才能判断性能指标的好坏？是的，Ege Erdil 解释了原因：ChatGPT/GPT-4 热潮之后对 AI 的需求激增。

生成式 AI 的普及速度如此之快，以至于实验室难以跟上，导致亏损不断增长。这种状况促使他们所有人都要降低推理成本（训练运行只做一次，但推理成本会随着用户数量和使用量的增加而成比例增长）。如果每周有 3 亿人使用你的 AI 产品，运营支出可能突然会要了你的命。

促使 Anthropic 将 Sonnet 3.6 从 Opus 3.5 中蒸馏出来的原因不管是什么，都会以好几倍的程度压在 OpenAI 身上。蒸馏之所以有用，是因为它能将两个普遍存在的难题变成一个优势：通过向用户提供更小的模型可以解决推理成本问题，同时还能避免在不发布更大模型时因为性能不佳而被公众苛责。

Ege Erdil 认为 OpenAI 可能选择了另一种方法：过度训练（overtraining）。也就是使用超过计算最优（compute-optimal）程度的数据量来训练小型模型：「当推理成为你在模型上支出的主要或主导部分时，更好的做法是…… 在更多的 token 上训练较小的模型。」但过度训练不再可行。AI 实验室已经在预训练上把高质量数据源消耗一空。伊隆・马斯克和 Ilya Sutskever 最近几周都承认了这一点。

回到蒸馏，Ege Erdil 总结说：「我认为 GPT-4o 和 Claude 3.5 Sonnet 很可能都是从更大模型中蒸馏出来的。」

到目前为止，所有证据都表明 OpenAI 正在以同样的方式（蒸馏）出于同样的原因（性能不佳 / 成本控制）做 Anthropic 对 Opus 3.5 所做的事情（训练和隐藏）。这是一个重要发现。但先别急，Opus 3.5 仍在隐藏。OpenAI 的类似模型在哪里？它在该公司的地下室里藏着吗？你能猜出它的名字吗…？

四、深入无人踏足之地，必须自己开路

我的分析始于 Anthropic 的 Opus 3.5 故事，因为有很多关于它的信息。然后我用蒸馏的概念搭建了通向 OpenAI 的桥梁，并解释了为什么推动 Anthropic 的潜在力量也在推动 OpenAI。然而，我们的理论中出现了一个新障碍：因为 OpenAI 是先驱，他们可能面临着 Anthropic 等竞争对手尚未遇到的障碍。

其中一大障碍便是训练 GPT-5 的硬件要求。Sonnet 3.6 与 GPT-4o 相当，但发布时间滞后了五个月。我们应该假设 GPT-5 处于另一个层次。更强大也更庞大。推理成本也更高，训练成本也是如此。可能运行一次训练就需要 5 亿美元。用现有的硬件有可能完成这样的事情吗？

Ege 的答案是可以。为 3 亿人提供服务是难以承受之重，但训练却是小菜一碟：

「理论上，即使我们现有的硬件也足以支持比 GPT-4 大得多的模型：例如，一个放大 50 倍的 GPT-4 版本，拥有大约 100 万亿参数，可能每百万输出 token 的成本为 3000 美元，输出速度为每秒 10-20 个 token。然而，要实现这一点，这些大型模型必须为使用它们的客户带来大量经济价值。」

然而，即使是微软、谷歌和亚马逊（分别是 OpenAI、DeepMind 和 Anthropic 的投资方）也无法为这种推理成本找到合理理由。那么他们如何解决这个问题的？很简单：只有当他们计划向公众提供数万亿参数的模型时，他们才需要「释放大量经济价值」。所以他们选择不放出那些模型。

他们训练它。他们意识到它「比他们目前的产品表现更好。」但他们必须接受它「还没有进步到足以证明保持它运行的巨大成本是合理的。」（听起来熟悉吗？这是《华尔街日报》一个月前关于 GPT-5 的报道。与彭博社关于 Opus 3.5 的说法惊人地相似。）

他们报告并不太好的结果（或多或少准确，他们总是可以在这里把玩叙事）。他们将其作为大型教师模型保留在内部，用于蒸馏更小的学生模型。然后他们发布这些更小模型。我们得到了 Sonnet 3.6 和 GPT-4o 以及 o1，并且非常高兴它们便宜且相当好。即使我们越来越不耐烦，但对 Opus 3.5 和 GPT-5 的期待依然没有改变。而他们的口袋就继续像金矿一样闪闪发光。

五、微软、OpenAI 与 AGI

当我在调查中达到这一点时，我仍然不太相信。当然，所有的证据都表明，这对 OpenAI 来说是完全合理的，但在合理 —— 甚至可能 —— 和真实之间存在着 gap。我不会为你填补这个 gap—— 毕竟，这只是推测。但我可以进一步加强论据。

有什么额外的证据表明 OpenAI 是这样运作的吗？除了性能不佳和亏损增加之外，他们还有其他理由扣留 GPT-5 吗？从 OpenAI 高管关于 GPT-5 的公开声明中我们能得出什么？反复推迟模型发布，他们不是在冒着牺牲声誉的风险吗？毕竟，OpenAI 是 AI 革命的代表，而 Anthropic 在其阴影下运作。Anthropic 可以负担得起这些举动，但 OpenAI 呢？也许这么做并非没有代价。

说到钱，让我们挖出一些关于 OpenAI – 微软合作关系的相关细节。首先是每个人都知道的：AGI 条款。在 OpenAI 关于其结构的博客文章中，他们有五个治理条款，描述了其运作方式、与非营利组织的关系、与董事会的关系以及与微软的关系。第五条将 AGI 定义为「在大多数具有经济价值的工作中超越人类的高度自主系统」，并规定一旦 OpenAI 董事会声称已经实现 AGI，「这样的系统将被排除在与微软的 IP 许可和其他商业条款之外，这些条款只适用于 AGI 之前的技术。」

不用说，两家公司都不希望合作关系破裂。OpenAI 设定了这个条款，但会做任何必要的事情来避免遵守它。其中一种方式是推迟发布可能被标记为 AGI 的系统。「但 GPT-5 肯定不是 AGI，」你会说。而我会说这里有第二个事实，几乎没有人知道：OpenAI 和微软对 AGI 有一个秘密定义：AGI 是一个「可以产生至少 1000 亿美元利润的 AI 系统。」这个定义虽然在科学目的上无关紧要，但在法律术语上构建了他们的合作关系。

如果 OpenAI 假设性地以「还没有准备好」为借口扣留 GPT-5，除了控制成本和防止公众反弹外，他们还能多做一件事：他们会回避宣布它是否达到了被归类为 AGI 的门槛。虽然 1000 亿美元的利润是一个非凡的数字，但没有什么能阻止雄心勃勃的客户在此基础上创造更多的利润。另一方面，让我们说清楚：如果 OpenAI 预测 GPT-5 每年能带来 1000 亿美元的经常性收入，他们不会介意触发 AGI 条款并与微软分道扬镳。

对于 OpenAI 不发布 GPT-5 的大多数公众反应都基于这样的假设：他们不这样做是因为它不够好。即使这是真的，也没有怀疑者停下来想一想 OpenAI 可能有比他们从外部获得的更好的内部用例。创建一个优秀的模型与创建一个可以廉价地服务于 3 亿人的优秀模型之间存在巨大差异。如果你做不到，你就不做。但同样，如果你不需要，你也不做。他们之前给我们访问他们最好的模型是因为他们需要我们的数据。现在不那么需要了。他们也不追逐我们的钱。想要钱的是微软，而不是他们。他们想要 AGI，然后是 ASI。他们想要一个遗产。

六、从山洞中传递智慧的老隐士

文章接近尾声了。我相信我已经列出了足够的论据来建立一个坚实的案例：OpenAI 很可能在内部拥有正在运行的 GPT-5，就像 Anthropic 拥有 Opus 3.5 一样。OpenAI 永远不会发布 GPT-5 也是有可能的。公众现在将性能与 o1/o3 进行对比，而不仅仅是 GPT-4o 或 Claude Sonnet 3.6。随着 OpenAI 探索测试时 scaling law，GPT-5 需要跨越的门槛不断提高。他们如何能发布一个真正超越 o1、o3 和即将到来的 o 系列模型的 GPT-5 呢，特别是考虑到他们生产这些模型的速度？此外，他们不再需要我们的钱或数据了。

训练新的基础模型 ——GPT-5、GPT-6 及以后的模型 —— 对 OpenAI 内部来说永远有意义，但不一定作为产品。这可能结束了。现在对他们来说唯一重要的目标是继续为下一代模型生成更好的数据。从现在开始，基础模型可能在后台运行，让其他模型能够完成它们自己无法完成的壮举——就像一个老隐士从秘密山洞中传递智慧，只是这个山洞是一个巨大的数据中心。而无论我们能否见到他，我们都将经历他的智慧带来的后果。

即使 GPT-5 最终发布，这个事实突然显得几乎无关紧要。如果 OpenAI 和 Anthropic 确实启动了递归自我改进行动（尽管仍然有人类参与其中），那么他们公开给我们什么并不重要。他们将越走越远 —— 就像宇宙膨胀得如此之快，以至于远处星系的光再也无法到达我们这里。

也许这就是 OpenAI 如何在短短三个月内从 o1 跳到 o3 的原因，以及他们将如何跳到 o4 和 o5。这可能也是为什么他们最近在社交媒体上如此兴奋。因为他们已经实施了一种新的改进后的运作模式。

你真的认为接近 AGI 意味着你能随时使用越来越强大的 AI 吗？他们会发布每一个进展让我们使用？当然，你不会相信这个。当他们说他们的模型会让他们远远领先于任何人以至于无法追赶时，他们是认真的。每一代新模型都是逃逸速度的引擎。从平流层开始，他们已经在向我们挥手告别。

他们是否会回来还有待观察。

（文：机器之心）

2025 年 6 月
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复