作者 | Ben Thompson
2025 年初,AI 领域掀起了一场前所未有的风暴,一家成立仅三年的中国公司深度求索接连放出两枚“核弹”:
-
DeepSeek 推理模型 R1:正面硬刚 OpenAI o1,不仅性能媲美,还彻底开源。
-
DeepSeek 千亿参数模型 V3:训练成本仅 557 万美元,比 GPT-4 便宜 10 倍。
消息一出,Nvidia(英伟达)市值单日蒸发 1200 亿美元,美股 AI 概念股全线暴跌,整个硅谷为之震动。这不仅仅是技术上的颠覆,更是 AI 竞争格局的彻底改写。DeepSeek 证明了 领先 AI 并不一定依赖昂贵的算力,美国的芯片封锁政策或许已经失效。
这场 AI 变局的核心看点:
-
低成本、高效率:DeepSeek 训练 V3 的总算力仅 278.8 万 GPU 小时,相比 OpenAI 和 Google 的动辄数十亿美元投入,展现出 AI 训练成本大幅下降的可能性。
-
芯片禁令:DeepSeek 的诸多创新,正是为了克服 H800 相较于 H100 的内存带宽劣势。如果 DeepSeek 能够使用 H100,他们会选择更大的训练集群,而不是针对 H800 进行如此极致的优化。
-
AI 自主进化:DeepSeek 的 R1-Zero 依靠纯强化学习(RL),无需人工标注,就能自己学会推理和优化答案。
-
开源冲击波:与 OpenAI 越来越封闭的策略相反,DeepSeek 选择开放权重,这一决定或将引发 AI 研究范式的重大转变。
这场 AI 格局重塑的背后,究竟意味着什么?DeepSeek 的策略如何改变全球科技版图?在这场行业剧变中,科技分析顶流博客 Stratechery 的创始人 Ben Thompson 再次站在了前沿。
作为《纽约时报》《经济学人》的特约撰稿人,Thompson 的深度推演长期被硅谷高管视为战略决策的参考。早在 2023 年,他就预测 “AI 模型商品化将摧毁封闭生态”,DeepSeek 事件正是这一理论的完美验证。
DeepSeek 发布了什么公告?
最近一次引发轰动的公告是 R1,一个类似于 OpenAI o1 的推理模型。
然而,导致此次轰动的诸多信息——包括 DeepSeek 的训练成本——实际上是在 V3 公布时(圣诞节期间)披露的。
带火了这种模型命名方式,是 OpenAI 犯下的最大“罪行”吗?
从前往后看:V2 模型是什么?为什么它如此重要?
需要注意的是,上述成本仅包括 DeepSeek-V3 的正式训练,不包括架构、算法或数据的前期研究和消融实验成本。

怎么证实论文里的那些数字?
当然,这只是最终的训练阶段,并非所有成本,但这个数字是合理的。

DeepSeek 真的有 5 万张 H100 GPU 吗?
Scale AI 的 CEO Alexandr Wang 曾表示他们拥有 50,000 张 H100。
*(关于此人,欢迎回顾《27 岁创始人已经给 AI 准备好「人类最终测试」!》)
但实际上,我们不知道 Alexandr Wang 的消息来源。他可能是参考了 2024 年 11 月 Dylan Patel 的一条推文,该推文声称 DeepSeek 拥有超过 50,000 张 Hopper GPU。
H800 也是 Hopper 架构的 GPU,但由于美国制裁,H800 的内存带宽远低于 H100。
关键点在于:DeepSeek 的诸多创新,正是为了克服 H800 相较于 H100 的内存带宽劣势。如果你认真计算过 V3 训练过程,你会发现 DeepSeek 实际上拥有过剩的计算能力,这是因为 DeepSeek 专门在 H800 的 132 个处理单元中划分了 20 个用于管理芯片间通信。
这在 CUDA 中是无法做到的,因为 DeepSeek 的工程师必须使用 PTX(Nvidia GPU 的低级指令集,类似于汇编语言)进行优化。这种级别的优化只有在必须使用 H800 时才有意义。如果 DeepSeek 能够使用 H100,他们可能会选择更大的训练集群,而不是针对 H800 进行如此极致的优化。

这是否违反了美国的芯片禁令?
没有。
H100 被美国禁令禁止出口到中国,但 H800 没有被禁。
很多人认为,训练领先的 AI 模型需要更高的芯片间带宽,但 DeepSeek 正是围绕 H800 的带宽限制,优化了模型架构和训练基础设施。

V3 是一款领先的 AI 模型吗?
是的。
它至少能与 OpenAI 的 GPT-4o 和 Anthropic 的 Claude Sonnet 3.5 竞争,而且比 Meta Llama 系列现有的最大模型更强。

什么是蒸馏(distillation)?
蒸馏是一种从另一个模型中提取知识的方法。
你可以向一个更强的“教师”模型提供输入,记录其输出,然后用这些数据训练“学生”模型。例如,GPT-4 Turbo 可能是从 GPT-4 通过蒸馏得到的。对于 AI 公司来说,自己对自己的模型进行蒸馏比较容易,因为他们可以完全访问这些模型。
但即使没有完整的访问权限,通过 API 甚至聊天客户端也能进行蒸馏。
蒸馏显然违反了 OpenAI 等公司的使用条款,但唯一能阻止它的办法就是直接封禁访问,比如 IP 封锁、速率限制等。
行业内普遍认为,蒸馏在 AI 训练过程中非常普遍,这也是为什么越来越多的模型接近 GPT-4o 的质量。
尽管我们无法确切知道 DeepSeek 是否蒸馏了 GPT-4o 或 Claude,但如果他们没有这样做,反而会令人惊讶。

蒸馏对领先的 AI 公司来说是个坏消息吗?
对,这是个坏消息。
但也有正面影响:OpenAI、Anthropic、Google 可能都在用蒸馏来优化自己的推理模型,从而降低成本,提高效率。
负面影响是,他们要承担昂贵的训练成本,而其他人可以“免费搭车”。
这可能正是微软和 OpenAI 关系渐行渐远的核心经济因素。微软主要关心推理服务(提供 AI 计算能力),但不太愿意资助 OpenAI 建设 1000 亿美元的数据中心来训练模型。

这就是最近科技股股价下跌的原因吗?
从长期来看,模型的普及化和推理成本降低对科技巨头是好事。
-
微软可以更低成本地向客户提供 AI 服务,要么减少数据中心投资,要么因 AI 变便宜导致使用量激增。
-
亚马逊(AWS)自己没能训练出最好的 AI 模型,但如果有高质量的开源模型,他们可以直接提供推理服务,从而大幅降低成本。
-
苹果也是赢家。推理所需的内存大幅降低,使得“边缘推理”(edge inference)更加可行,而苹果芯片(Apple Silicon)正是这方面的佼佼者。
-
Meta(Facebook)可能是最大赢家。他们的 AI 业务本来就很强,而推理成本降低将使 AI 在 Meta 的产品中更容易扩展。
但 Google 的处境可能会更艰难:
-
TPU 的相对优势降低了,因为硬件要求下降了。
-
如果推理变得“零成本”,那么可能会出现更多的 AI 应用来取代搜索引擎。
尽管 Google 也能享受更低的成本,但任何改变现状的事情,通常对 Google 都是负面的。

终于可以开始讲 R1 了吗?
其实我花了很多时间讲 V3,是因为 V3 才是实际体现行业变革的模型。
R1 是一个类似于 OpenAI o1 的推理模型。它可以分步骤思考问题,从而大幅提高代码、数学、逻辑等领域的准确性。它的诞生意味着:
1. OpenAI 没有护城河。

DeepSeek 是怎么训练出 R1 的?
DeepSeek 实际上训练了两个模型:
-
R1
-
R1-Zero
R1-Zero 更值得关注,因为它是一个完全基于强化学习(RL)的推理模型。它没有使用任何人工标注数据,而是通过自我进化(self-evolution)学会了推理能力。
根据 R1 论文(https://arxiv.org/pdf/2501.12948),R1-Zero 通过 RL 训练后,其数学推理能力从 15.6% 提高到 71.0%,如果使用投票机制,甚至可以达到 86.7%,与 OpenAI o1-0912 相媲美。
DeepSeek 采用了一种全新的强化学习方法 来训练 R1-Zero。他们没有依赖人类反馈(RLHF),而是完全依靠 AI 自己的进化(self-evolution)。
经典强化学习的例子是 AlphaGo,DeepMind 仅告诉 AI 围棋的规则,并设置了“获胜”作为奖励函数,然后 AI 自己摸索出最佳策略。
但 LLM(大语言模型)通常需要 RLHF(人类反馈强化学习),因为人类需要引导它们做出更自然、连贯的回答。
然而,DeepSeek 完全放弃了人类反馈,直接让 AI 通过自我学习进化:
1. 他们给 R1-Zero 一组数学、代码、逻辑问题。
2. 设置两个奖励函数:
-
答案正确 → 奖励
-
答案结构合理(具有推理过程) → 额外奖励
3. AI 自己尝试不同的解法,并优化自己的推理能力。

什么是“顿悟时刻”?
在训练 R1-Zero 的过程中,研究人员观察到 AI 自己学会了分配更多的时间思考复杂问题。
-
它会重新评估自己的解法,如果发现思路不对,就会切换到新的解法。
-
这完全是 AI 自己“领悟”出来的能力,没有人类指导!
DeepSeek 论文这样描述这一现象:
“顿悟时刻”发生在模型的中间训练阶段。
在这一阶段,DeepSeek-R1-Zero 逐渐学会为某些问题分配更多的思考时间,通过重新评估初始解法来寻找更好的答案。
这种现象不仅证明了模型推理能力的成长,也展现了强化学习如何带来意想不到的复杂智能行为。
这与 DeepMind 训练 AlphaGo Zero 时观察到的现象类似:
-
一开始 AI 只会使用简单的策略,但随着训练的进行,AI 逐渐发展出复杂的战术。
-
它们学会如何思考,而不是仅仅模仿人类答案。

R1 的实际表现为什么比 R1-Zero 更强?
虽然 R1-Zero 具备很强的推理能力,但它存在两个主要问题:
1. 答案的可读性很差(AI 过于关注推理,忽略了语言表达)。
2. 存在语言混杂问题(部分回答会夹杂多种语言,不够一致)。
为了解决这些问题,DeepSeek 进一步优化了 R1:
1. 加入了少量人工标注的“冷启动”数据,让 AI 学会更自然的表达方式。
2. 引入多阶段训练策略:
-
先用“冷启动”数据微调 DeepSeek-V3-Base,让 AI 学会基本的推理表达。
-
再进行类似 R1-Zero 的强化学习训练,进一步增强推理能力。
-
最后,使用 RL 训练生成的新数据进行监督微调(SFT),确保 AI 的答案既准确又易读。

这是否意味着 AI 学会了自主训练?
答案是肯定的。
DeepSeek 证明了 AI 可以通过强化学习,自我进化出推理能力。
传统观点认为,AI 需要人类引导才能学会推理。
但 R1-Zero 只需要大量计算资源和奖励函数,就能自己学会推理!
换句话说,AI 现在可以自己训练自己:
-
AI 生成新的数据
-
AI 自己评估数据质量
-
AI 通过强化学习提高推理能力
这标志着 AI 进入了一个新的发展阶段:
-
AI 训练不再依赖人类标注数据
-
AI 可以自己优化自己的能力

这是否意味着 AGI(通用人工智能)即将到来?
目前,R1 并不是 AGI,但它确实向 AGI 迈出了重要一步。
DeepSeek 已经证明了 AI 可以自己学习推理能力,接下来:
-
如果 AI 也能自己优化记忆和知识整合能力,那 AGI 就真的近在咫尺了!

OpenAI 现在处于劣势了吗?
不一定。
尽管 DeepSeek 在效率上领先,但 OpenAI 仍然拥有更强的整体模型能力:
-
o3(推理模型)比 R1 更强
-
OpenAI 拥有更丰富的训练数据
-
他们有微软的强大算力支持
不过,DeepSeek 展示的低训练成本和高效推理,已经彻底打破了 OpenAI 曾经的技术壁垒。

为什么大家对 DeepSeek 这么震惊?
有几个主要原因:
1. 中国的 AI 追赶速度远超预期
许多人以为中国的软件实力比美国弱,但 DeepSeek 证明中国可以在 AI 领域达到世界顶级水平。
2. DeepSeek 训练成本远低于预期
低成本意味着更多公司可以进入 AI 竞争,OpenAI 的优势被削弱。
3. DeepSeek 证明了 AI 可以绕开美国芯片禁令

芯片禁令还重要吗?
美国的芯片禁令的确延缓了中国 AI 的发展,但没有阻止它。
相反,DeepSeek 在受限条件下进行了极限优化,反而创造了更高效的 AI 训练方法。
这不仅降低了 AI 训练成本,也让中国的 AI 能够在更弱的硬件上运行。
从长期来看:
-
封锁可能会促使中国 AI 产业更加独立,开发自己的芯片。
-
美国如果不加快创新,而只是依靠封锁,可能会失去领先优势。

总结:DeepSeek 的意义是什么?
DeepSeek 改变了 AI 竞争的游戏规则:
1. 更低的训练成本 → AI 训练变得更便宜。
2. 更高效的推理 → AI 使用成本大幅下降。
3. AI 自我进化能力 → 迈向 AGI 的关键一步。
最终,AI 将变得更加普及,AI 服务几乎免费。
(文:AI科技大本营)