Ben Thompson 是科技领域最具洞察力的分析师之一,他的博客 Stratechery 以其对科技行业的深度分析和前瞻性预测而闻名。在这篇文章中,Ben Thompson 以问答的形式,详细解读了 DeepSeek 的技术细节、行业影响,以及其对中美科技竞争格局的潜在影响。
希望通过这篇文章,读者能够更深入地了解 DeepSeek 的技术创新,以及这场 AI 变革背后的深层逻辑。让我们一起跟随 Ben Thompson 的视角,探索 AI 领域的最新进展,洞察科技行业的未来趋势。
核心观点:
-
DeepSeek 的 V3 模型通过技术创新大幅降低了 AI 模型的训练成本,对 AI 行业产生了深远影响。
-
DeepSeek 的 R1 模型展示了纯强化学习在提升模型推理能力方面的潜力,打破了 OpenAI 的 o1 模型在推理领域的领先地位。
-
尽管美国实施了芯片禁令,DeepSeek 依然在 AI 领域取得了重大突破,这引发了对禁令有效性的质疑,也凸显了中国在 AI 软件方面的实力。
-
DeepSeek 的技术突破对英伟达构成了挑战,同时也为其他科技公司带来了机遇,模型和推理成本的降低将推动 AI 应用的普及。
-
开源成为 DeepSeek 吸引人才和建立技术生态的关键策略,这与 OpenAI 等公司形成了鲜明对比,也预示着 AI 行业未来可能走向开放与合作。
问:今天是 1 月 27 日星期一。为什么你还没有写关于 DeepSeek 的文章?
答:我已经写过了!我在上周二[2]的文章里提到了 R1。
问:我完全忘记了。
答:这是我的责任。我仍然支持那篇文章的观点,包括我强调的两大要点(通过纯强化学习实现的涌现式思维链,以及蒸馏的力量),我也提到了低成本(我在 Sharp Tech[3] 节目中进一步阐述了这一点)和芯片禁令的影响,但这些观察过于局限于当前 AI 技术的最新进展。我完全没有预料到的是,这一消息会对更广泛的讨论产生影响,尤其是在美国和中国方面。
问:以前有过类似的疏忽吗?
答:有的。2023 年 9 月,华为发布了搭载中芯国际制造的 7 纳米芯片的 Mate 60 Pro 手机。对于密切关注此事的人来说,这款芯片的存在并不令人惊讶:中芯国际在一年前[4]就已经制造出了 7 纳米芯片(我更早[5]就注意到了这一点),而台积电也早已使用纯 DUV 光刻技术批量生产 7 纳米芯片(后来版本的 7 纳米芯片才开始使用 EUV 光刻)。英特尔几年前也使用纯 DUV 光刻技术制造了 10 纳米(相当于台积电的 7 纳米)芯片,但无法实现盈利性的良率;中芯国际可以使用现有设备生产 7 纳米芯片,特别是如果他们不关心良率的话,这对我来说一点也不奇怪。
我完全没有预料到的是华盛顿特区的过度反应。芯片禁令的急剧扩大,最终导致拜登政府将芯片销售转变为许可制结构[6],其根源在于人们不了解芯片生产的复杂性,并被华为 Mate 60 Pro 完全打了个措手不及。我感觉过去 72 小时内发生了类似的事情:DeepSeek 取得了哪些成就,以及他们尚未取得哪些成就,这些细节并不重要,重要的是人们的反应,以及这种反应反映了人们的哪些预设。
问:那么 DeepSeek 宣布了什么?
答:与这个周末的轩然大波最相关的发布是 R1,一个类似于 OpenAI 的 o1 的推理模型。然而,许多引发这场风波的信息,包括 DeepSeek 的训练成本,实际上是在圣诞节期间的 V3 发布时就已经公布了。此外,V3 的许多突破实际上是在去年 1 月发布的 V2 模型中就已经揭示了。
问:这种模型命名规则是 OpenAI 犯下的最大罪行吗?
答:第二大罪行;我们稍后会谈到最大的罪行。
问:让我们倒推一下:什么是 V2 模型,为什么它很重要?
答:DeepSeek-V2 模型引入了两项重要的突破:DeepSeekMoE 和 DeepSeekMLA。“MoE”指的是“混合专家模型”(Mixture of Experts)。一些模型,如 GPT-3.5,在训练和推理过程中都会激活整个模型;然而,事实证明,并非模型的每个部分都对当前的任务是必要的。MoE 将模型分成多个“专家”,并且只激活必要的那些;GPT-4 是一个 MoE 模型,据信有 16 个专家,每个专家大约有 1100 亿个参数。
在 V2 中实现的 DeepSeekMoE 对这一概念进行了重要的创新,包括区分更细粒度的专业专家和具有更通用能力的共享专家。至关重要的是,DeepSeekMoE 还引入了新的负载均衡和路由方法;传统上,MoE 在训练中增加了通信开销,以换取高效的推理,但 DeepSeek 的方法也提高了训练效率。
DeepSeekMLA 是一项更大的突破。推理的最大限制之一是所需的内存量:既需要将模型加载到内存中,还需要加载整个上下文窗口。上下文窗口在内存方面特别昂贵,因为每个 token 都需要一个键(key)和相应的值(value);DeepSeekMLA,即多头潜注意力机制(Multi-head Latent Attention),可以压缩键值存储,从而大大降低推理过程中的内存使用量。
问:我不太明白这些。
答:这些突破的关键意义,以及你需要理解的部分,只有在 V3 中才变得明显,V3 增加了一种新的负载均衡方法(进一步减少通信开销)和训练中的多 token 预测(进一步密集化每个训练步骤,再次减少开销):V3 的训练成本低得惊人。DeepSeek 声称模型训练耗时 278.8 万 H800 GPU 小时,按照每个 GPU 小时 2 美元的成本计算,仅为 557.6 万美元。
问:这似乎低得难以置信。
答:DeepSeek 明确表示,这些成本仅适用于最终的训练运行,不包括所有其他费用;摘自 `V3` 论文[7]:
最后,我们再次强调 DeepSeek-V3 的经济训练成本,如表 1 所示,这是通过我们对算法、框架和硬件的协同设计优化实现的。在预训练阶段,在每万亿 token 上训练 DeepSeek-V3 只需要 18 万 H800 GPU 小时,也就是说,在我们的 2048 块 H800 GPU 集群上只需 3.7 天。因此,我们的预训练阶段在不到两个月的时间内完成,耗时 266.4 万 GPU 小时。加上上下文长度扩展的 11.9 万 GPU 小时和后训练的 5000 GPU 小时,DeepSeek-V3 的完整训练仅耗时 278.8 万 GPU 小时。假设 H800 GPU 的租用价格为每 GPU 小时 2 美元,我们的总训练成本仅为 557.6 万美元。请注意,上述成本仅包括 DeepSeek-V3 的正式训练,不包括与架构、算法或数据相关的先前研究和消融实验的成本。
所以,你无法用 557.6 万美元复制 DeepSeek 这家公司。
问:我仍然不相信这个数字。
答:实际上,一旦你理解了 V3 的架构,质疑者才需要提供证据。还记得关于 DeepSeekMoE 的那部分吗:V3 有 6710 亿个参数,但每个 token 只计算 370 亿个活跃专家参数;这相当于每个 token 进行 3333 亿次浮点运算(FLOPs)。这里我还应该提到 DeepSeek 的另一项创新:虽然参数以 BF16 或 FP32 精度存储,但在计算时会将精度降低到 FP8;2048 块 H800 GPU 的容量为 3.97 exaFLOPS,即 39.7 亿亿次浮点运算。与此同时,训练集包含 14.8 万亿个 token;一旦你完成了所有的计算,就会发现 280 万 H800 小时足以训练 V3。再次强调,这只是最终运行的成本,而不是总成本,但这是一个合理的数字。
问:Scale AI 首席执行官 Alexandr Wang 说他们有 50,000 块 H100[8]。
答:我不知道 Wang 的信息来源是什么;我猜他指的是 Dylan Patel 2024 年 11 月的这条推文[9],其中说 DeepSeek 拥有“超过 5 万块 Hopper GPU”。然而,H800 也是 Hopper GPU,只是由于美国的制裁[10],它们的内存带宽比 H100 低得多。
关键在于:我上面解释的许多创新都是为了克服使用 H800 而不是 H100 所带来的内存带宽不足的问题。此外,如果你真的计算了上一个问题,你会发现 DeepSeek 实际上有计算盈余;这是因为 DeepSeek 实际上将每块 H800 上的 132 个处理单元中的 20 个专门用于管理跨芯片通信。_这在 CUDA 中实际上是不可能做到的。_ DeepSeek 的工程师不得不降级到 PTX,这是一种用于 Nvidia GPU 的低级指令集,基本上类似于汇编语言。这是一种疯狂的优化水平,只有在使用 H800 的情况下才有意义。
与此同时,DeepSeek 还提供模型进行推理:这需要大量额外的 GPU,而不是用于训练的那些。
问:那么这违反了芯片禁令吗?
答:没有。H100 被芯片禁令禁止,但 H800 没有。每个人都认为训练前沿模型需要更多的芯片间内存带宽,但这正是 DeepSeek 优化其模型结构和基础设施的方向。
再次强调这一点,如果你被限制在 H800,DeepSeek 在设计这个模型时所做的所有决定才是有意义的;如果 DeepSeek 可以使用 H100,他们可能会使用一个更大的训练集群,而不会进行那么多专门针对克服带宽不足的优化。
问:那么 V3 是一个前沿模型吗?
答:它肯定可以与 OpenAI 的 4o 和 Anthropic 的 Sonnet-3.5 相媲美,而且似乎比 Llama 最大的模型更好。DeepSeek 很可能能够蒸馏这些模型,从而为 V3 提供高质量的 token 进行训练。
问:什么是蒸馏?
答:蒸馏是一种从另一个模型中提取理解的方法;你可以向教师模型发送输入并记录输出,并使用它来训练学生模型。这就是如何从 GPT-4 得到 GPT-4 Turbo 的方法。对于一家公司来说,对自己的模型进行蒸馏更容易,因为他们可以完全访问,但你仍然可以通过 API 以一种稍微笨拙的方式进行蒸馏,或者,如果你有创意的话,甚至可以通过聊天客户端进行蒸馏。
蒸馏显然违反了各种模型的使用条款,但阻止它的唯一方法是真正切断访问,通过 IP 封禁、速率限制等。人们普遍认为蒸馏在模型训练中广泛存在,这就是为什么越来越多的模型正在趋同于 GPT-4o 的质量。这并不意味着我们确切地知道 DeepSeek 是否蒸馏了 4o 或 Claude,但坦率地说,如果他们没有这样做才奇怪。
问:蒸馏对于前沿模型来说似乎很糟糕。
答:确实如此!从积极的方面来看,OpenAI、Anthropic 和 Google 几乎肯定会使用蒸馏来优化他们用于面向消费者的应用程序的模型;从消极的方面来看,他们实际上承担了训练前沿模型的全部成本,而其他人则在免费搭车。
事实上,这可能是 微软和 OpenAI 逐渐分道扬镳[11]背后的核心经济因素。微软有兴趣向其客户提供推理服务,但对于资助 1000 亿美元的数据中心来训练前沿模型却不那么热衷,因为这些模型很可能在 1000 亿美元折旧完之前就被商品化了。
问:这就是所有大型科技公司股价下跌的原因吗?
答:从长远来看,模型商品化和更便宜的推理(DeepSeek 也已经证明了这一点)对大型科技公司来说是件好事。如果微软可以以更低的成本向其客户提供推理服务,这意味着微软需要减少在数据中心和 GPU 上的支出,或者,同样有可能的是,由于推理成本大幅降低,使用量将大幅增加。另一个大赢家是亚马逊:到目前为止,AWS 还没有推出自己的高质量模型,但这并不重要,因为有非常高质量的开源模型,他们可以以远低于预期的成本提供服务。
苹果也是一个大赢家。推理所需内存的大幅减少使得边缘推理更加可行,而苹果拥有最适合的硬件。苹果芯片采用统一内存,这意味着 CPU、GPU 和 NPU(神经处理单元)可以访问共享的内存池;这意味着苹果的高端硬件实际上拥有最适合推理的消费者芯片(英伟达游戏 GPU 的显存最高为 32GB,而苹果芯片的内存最高可达 192GB)。
与此同时,Meta 是最大的赢家。我已经在去年秋天[12]阐述了 Meta 业务的各个方面如何从 AI 中受益;实现这一愿景的一大障碍是推理成本,这意味着大幅降低推理成本,以及大幅降低训练成本(因为 Meta 需要保持在前沿),使得这一愿景更容易实现。
与此同时,谷歌的处境可能更糟:硬件需求降低的世界削弱了他们在 TPU 方面的相对优势。更重要的是,零成本推理的世界增加了取代搜索的产品的可行性和可能性;诚然,谷歌的成本也降低了,但任何现状的改变都可能是净负面的。
问:我问的是为什么股价下跌;你却描绘了一幅积极的图景!
答:我的图景是长期的;今天是短期,市场似乎正在消化 R1 存在的冲击。
问:等等,你还没有谈到 R1 呢。
答:R1 是一个类似于 OpenAI 的 o1 的推理模型。它有能力思考问题,产生更高质量的结果,特别是在编码、数学和逻辑等领域(但我重复一遍)。
问:这比 V3 更令人印象深刻吗?
答:实际上,我之所以花这么多时间在 V3 上,是因为它是真正展示了许多似乎引起如此多惊讶和争议的动态的模型。然而,R1 值得注意,因为 o1 是市场上唯一的推理模型,也是 OpenAI 处于市场领先地位的最明显标志。
R1 在几个重要方面打破了 o1 的神话。首先,它的存在本身就是一个事实。OpenAI 并没有某种无法复制的特殊秘方。其次,R1,就像 DeepSeek 的所有模型一样,具有开放的权重(说“开源”的问题在于我们没有创建它的数据)。这意味着你不必向 OpenAI 付费来获得推理,你可以在你选择的服务器上运行 R1,甚至可以在本地运行,成本要低得多。
问:DeepSeek 是如何制造 R1 的?
答:DeepSeek 实际上制作了两个模型:R1 和 R1-Zero。实际上,我认为 R1-Zero 更重要;正如我上面提到的,它是我在上周二的文章[13]中最大的关注点:
然而,在我看来,R1-Zero 更重要。根据论文[14]:
[引用] 强化学习是一种技术,在这种技术中,机器学习模型被赋予一堆数据和一个奖励函数。典型的例子是 AlphaGo,DeepMind 向模型提供了围棋规则,奖励函数是赢得比赛,然后让模型自己解决其他所有问题。众所周知,这种方法比其他更依赖人类指导的技术效果更好。
然而,迄今为止的大型语言模型都依赖于带有人类反馈的强化学习;人类参与其中,帮助指导模型,处理奖励不明显的困难选择等。RLHF 是将 GPT-3 转变为 ChatGPT 的关键创新,它可以生成格式良好的段落,简洁明了、不会跑题的答案等。
然而,R1-Zero 去掉了 HF 部分——它只是强化学习。DeepSeek 给模型提出了一系列数学、代码和逻辑问题,并设置了两个奖励函数:一个用于正确答案,一个用于利用思维过程的正确格式。此外,该技术很简单:DeepSeek 没有尝试逐步评估(过程监督),也没有搜索所有可能的答案(类似于 AlphaGo),而是鼓励模型一次尝试几种不同的答案,然后根据两个奖励函数对它们进行评分。
结果是一个模型自行发展了推理和思维链,包括 DeepSeek 称之为“顿悟时刻”的东西:
[引用]
这是对“苦涩的教训”[15]最有力的肯定之一:你不需要教 AI 如何推理,你只需要给它足够的计算和数据,它就会自学!
嗯,差不多:R1-Zero 可以推理,但人类难以理解。回到引言:
[引用]
这听起来很像 OpenAI 对 `o1` 所做的[16]:DeepSeek 首先用一堆思维链思考的例子启动模型,以便它可以学习供人类使用的正确格式,然后进行强化学习以增强其推理能力,以及一些编辑和改进步骤;输出是一个似乎与 o1 非常有竞争力的模型。
这里似乎又有 DeepSeek 受益于蒸馏的可能,特别是在训练 R1 方面。然而,这本身就是一个重要的收获:我们看到的情况是,AI 模型正在训练 AI 模型,AI 模型正在自学。我们正在实时观察 AI 起飞场景的组装过程。
问:那么我们离通用人工智能(AGI)很近了吗?
答:看起来确实很接近了。这也解释了为什么软银(以及孙正义召集的任何投资者)会提供微软不会提供的 OpenAI 资金:相信我们正在到达一个起飞点,在那里,率先到达终点确实会带来真正的回报。
问:但 R1 现在不是领先了吗?
答:我不这么认为;这一点被夸大了。R1 与 o1 相当,尽管它的能力似乎存在一些漏洞,这表明它可能从 o1-Pro 中进行了一定程度的蒸馏。与此同时,OpenAI 已经展示了 o3,一个强大得多的推理模型。DeepSeek 绝对是效率方面的领导者,但这与总体领先是不同的。
问:那为什么每个人都吓坏了?
答:我认为有多种因素。首先,令人震惊的是,尽管人们普遍认为中国在软件方面不如美国,但中国已经赶上了美国领先的实验室。这可能是我在对人们的反应感到惊讶时最大的疏忽。现实情况是,中国总体上拥有非常精通的软件行业,并且在 AI 模型构建方面有着非常好的记录。
其次是 V3 的低训练成本和 DeepSeek 的低推理成本。当然,这部分对我来说也是一个很大的惊喜,但这些数字是合理的。由此推之,这可能让每个人都对英伟达感到紧张,这显然对市场产生了重大影响。
第三是 DeepSeek 在芯片禁令的情况下完成了这一切。同样,尽管芯片禁令存在很大的漏洞,但在我看来,DeepSeek 很有可能是用合法的芯片完成了这项工作。
问:我持有英伟达的股票!我是不是完蛋了?
答:这一消息确实给英伟达的故事带来了真正的挑战。英伟达有两大护城河:
-
CUDA 是任何编写这些模型的人的首选语言,而 CUDA 只能在英伟达芯片上运行。 -
英伟达在将多个芯片组合成一个大型虚拟 GPU 方面拥有巨大的领先优势。
这两大护城河协同作用。我上面提到,如果 DeepSeek 能够获得 H100,他们可能会使用更大的集群来训练他们的模型,仅仅因为这是一个更容易的选择;事实上他们没有这样做,并且受到带宽限制,这促使他们在模型架构和训练基础设施方面做出了许多决定。看看美国的实验室就知道了:他们没有在优化上花太多时间,因为英伟达一直在积极地推出功能更强大的系统来满足他们的需求。阻力最小的途径就是向英伟达支付更多费用。然而,DeepSeek 证明了另一条途径是可行的:深度优化可以在性能较弱的硬件和较低的内存带宽下产生显著的效果;仅仅向英伟达支付更多费用并不是制造更好模型的唯一途径。
尽管如此,还有三个因素仍然对英伟达有利。首先,如果将 DeepSeek 的方法应用于 H100 或即将推出的 GB100,效果会如何?仅仅因为他们找到了一种更有效的使用计算的方法,并不意味着更多的计算就没有用了。其次,从长远来看,较低的推理成本应该会推动更多的使用。微软首席执行官萨蒂亚·纳德拉在一条深夜推文中几乎肯定地对市场表示了这一点:
杰文斯悖论再次出现!随着人工智能变得更加高效和易于使用,我们将看到它的使用量猛增,使其成为我们无法获得足够的商品。https://t.co/omEcOPhdIz[17]
— Satya Nadella (@satyanadella) 2025 年 1 月 27 日[18]
第三,像 R1 和 o1 这样的推理模型通过使用更多的计算来获得其卓越的性能。在某种程度上,提高人工智能的能力和性能依赖于更多的计算,英伟达将在某种程度上受益!
不过,情况并非一片光明。至少,DeepSeek 的效率和广泛可用性对英伟达最乐观的增长故事投下了巨大的阴影,至少在短期内是这样。模型和基础设施优化的回报也表明,探索推理的替代方法可以获得巨大的收益。例如,在独立的 AMD GPU 上运行推理可能更加合理,完全避开了 AMD 较差的芯片间通信能力。推理模型还提高了比英伟达 GPU 更专业的推理专用芯片的回报。
简而言之,英伟达不会消失;然而,英伟达的股票突然面临着许多尚未被计入价格的不确定性。因此,这将会拖累所有人。
问:那么芯片禁令呢?
答:最容易提出的论点是,鉴于美国在软件方面的领先地位迅速消失,芯片禁令的重要性只会更加突出。软件和技术诀窍无法被禁运——我们以前有过这些争论和认识——但芯片是实物,美国有理由不让它们落入中国手中。
与此同时,人们应该对这样一个事实保持一些谦逊,即早期版本的芯片禁令似乎直接导致了 DeepSeek 的创新。此外,这些创新不仅适用于走私的英伟达芯片或像 H800 这样的阉割版芯片,也适用于华为的昇腾芯片。事实上,你完全可以说,芯片禁令的主要结果是今天英伟达股价的暴跌。
我担心的是芯片禁令背后的心态:美国不是通过未来的创新来竞争,而是通过否定过去的创新来竞争。是的,这可能在短期内有所帮助——同样,DeepSeek 如果拥有更多的计算能力将会更加有效——但从长远来看,这只会为一个行业——芯片和半导体设备——播下竞争的种子,而美国在这个行业中占据着主导地位。
问:像 AI 模型一样?
答:AI 模型就是一个很好的例子。我上面提到我会谈到 OpenAI 最大的罪行,我认为是 2023 年拜登关于 AI 的行政命令[19]。我在《衰减创新》[20]一文中写道:
关键是:如果你接受监管会锁定现有企业的前提,那么值得注意的是,早期的 AI 赢家似乎最热衷于在华盛顿特区制造对 AI 的恐慌。尽管事实上他们的担忧显然还不足以让他们停止工作。不,他们是负责任的人,是那些关心到呼吁监管的人;如果对想象中的危害的担忧会削弱不可避免的竞争对手,那就更好了。
这段话是专门针对 OpenAI 的,更广泛地说,是针对旧金山的 AI 社区。多年来,我们一直受到那些致力于构建和控制 AI 的人的危言耸听。这些所谓的危险是 OpenAI 早在 2019 年发布 GPT-2[21] 时就变得封闭的推动力:
由于担心大型语言模型被用来大规模生成欺骗性、偏见性或辱骂性的语言,我们只发布了一个小得多的 GPT-2 版本以及采样代码(在新窗口中打开)。我们不会发布数据集、训练代码或 GPT-2 模型权重……我们知道一些研究人员有技术能力复制和开源我们的结果。我们相信我们的发布策略限制了最初可能选择这样做的组织数量,并让人工智能社区有更多时间讨论此类系统的影响。
我们还认为,政府应考虑扩大或启动计划,以更系统地监测人工智能技术对社会的影响和传播,并衡量此类系统能力的进展。如果得到推行,这些努力可以为人工智能实验室和政府关于发布决策和更广泛的人工智能政策的决策提供更好的证据基础。
这句话的傲慢程度仅次于它的徒劳无益:六年后的今天,全世界都可以获得一个强大得多的模型的权重。OpenAI 的控制策略——由美国政府强制执行——已经彻底失败。与此同时,由于前沿模型没有开放权重,我们放弃了多少创新?更广泛地说,为了一个被 DeepSeek 摧毁的政府强制护城河,人们花了多少时间和精力进行游说,而这些时间和精力本可以更好地用于实际创新?
问:所以你不担心 AI 末日论吗?
答:我当然理解这种担忧,并且刚刚指出,我们正在进入 AI 训练 AI 和自主学习推理的阶段。不过,我认识到,这趟列车无法停止。更重要的是,这正是为什么开放性如此重要:我们需要世界上有更多的人工智能,而不是一个不负责任的董事会来统治我们所有人。
问:等等,为什么中国要开源他们的模型?
答:需要澄清的是,是 DeepSeek 开源;首席执行官梁永锋在一篇必读的采访[22]中表示,开源是吸引人才的关键:
在颠覆性技术面前,闭源形成的护城河都是暂时的。即使是 OpenAI 的闭源也无法阻止别人追赶。所以我们把价值锚定在我们的团队——我们的同事通过这个过程成长,积累技术诀窍,形成一个能够创新的组织和文化。这是我们的护城河。
开源、发表论文,实际上并没有花费我们任何成本。对于技术人才来说,让别人跟随你的创新会带来很大的成就感。事实上,开源更多的是一种文化行为,而不是商业行为,为它做出贡献会赢得我们的尊重。一家公司这样做也有文化上的吸引力。
采访者问这是否会改变:
DeepSeek 现在有一种理想主义的光环,让人想起 OpenAI 的早期,而且它是开源的。你以后会改成闭源吗?OpenAI 和 Mistral 都从开源转向了闭源。
我们不会改成闭源。我们认为首先拥有一个强大的技术生态系统更为重要。
除了理想主义之外,这实际上是有道理的。如果模型是商品——它们看起来确实是这样——那么长期的差异化来自于拥有卓越的成本结构;这正是 DeepSeek 所提供的,这本身也与中国如何主导其他行业产生共鸣。这也与大多数美国公司对差异化的思考方式相反,后者是通过拥有差异化的产品来维持更高的利润率。
问:那么 OpenAI 完蛋了吗?
答:不一定。ChatGPT 使 OpenAI 成为了一家意外的消费科技公司[23],也就是说,一家产品公司;通过订阅和广告的某种组合,有可能在可商品化的模型上建立可持续的消费者业务。当然,还有赢得 AI 起飞竞赛的赌注。
另一方面,Anthropic 可能是这个周末最大的输家。DeepSeek 登上了 App Store 的榜首,这恰恰凸显了 Claude 与之相比在旧金山以外没有任何吸引力。API 业务做得更好,但总的来说,API 业务最容易受到似乎不可避免的商品化趋势的影响(并且请注意,OpenAI 和 Anthropic 的推理成本看起来比 DeepSeek 高很多,因为他们获得了大量的利润;这种情况即将消失)。
问:那么,这一切都很令人沮丧吗?
答:实际上,不是。我认为 DeepSeek 几乎给每个人都带来了一份巨大的礼物。最大的赢家是消费者和企业,他们可以预见到一个实际上免费的 AI 产品和服务的未来。从长远来看,杰文斯悖论将占主导地位,每个使用 AI 的人都将成为最大的赢家。
另一组赢家是大型消费科技公司。一个免费 AI 的世界是一个产品和分销最重要的世界,而这些公司已经赢得了这场比赛;《开端的结束》[24]是正确的。
中国也是一个大赢家,我认为这种方式只会随着时间的推移而变得明显。中国不仅可以使用 DeepSeek,而且我怀疑 DeepSeek 相对于美国领先的 AI 实验室的成功将导致中国进一步释放创新,因为他们意识到自己可以竞争。
这给美国留下了一个我们必须做出的选择。出于非常合乎逻辑的原因,我们可以加倍采取防御措施,例如大规模扩大芯片禁令,并对芯片和半导体设备实施类似于欧盟对科技的许可监管制度;或者,我们可以意识到我们面临着真正的竞争,并真正地给自己参与竞争的许可。停止危言耸听,停止争取监管——实际上,反其道而行之,并削减我们公司中与获胜无关的所有虚饰。如果我们选择竞争,我们仍然可以获胜,如果我们这样做了,我们将要感谢一家中国公司。
[1] DeepSeek FAQ: https://stratechery.com/2025/deepseek-faq/
(文:Founder Park)