卡住DeepSeek的脖子，不足为虑~

下午7时 2025/01/31 作者 PaperAgent

随着近期DeepSeek的一系列模型发布：DeepSeek V3、DeepSeek R1、Janus-Pro，引起了OpenAI、微软、Anthropic的极大“关注”：

OpenAI：表示有证据显示中国的DeepSeek使用其模型来训练竞争对手

微软：正在调查与DeepSeek有关的团体是否不当获取了OpenAI的数据？

而Anthropic的CEO Dario Amodei更是发表长文《On DeepSeek and Export Controls》探讨了美国对中国芯片出口限制政策以及中国AI公司DeepSeek的最新进展，其核心观点：

DeepSeek V3有创新但只是集中在工程效率方面，DeepSeek R1只是复制OpenAI o1的工作，加大芯片出口限制，中国无法获得足够的芯片，美国及其盟友将占据优势。

DeepSeek的进展与美国AI公司的竞争

DeepSeek最近发布的AI模型（如DeepSeek-V3和R1）在某些方面接近美国前沿AI模型的性能，且成本更低，但这并不意味着DeepSeek对美国AI公司构成直接威胁。Amodei认为，DeepSeek的进展并没有削弱美国对中国芯片出口限制的理由，反而使这些政策变得更加重要。

AI发展的三个动态

规模法则（Scaling Laws）：AI系统的性能随着训练规模的增加而提升。例如，投入更多的资金用于训练可以显著提高模型的性能。
曲线平移（Shifting the Curve）：AI领域不断出现新的技术和硬件改进，这些改进可以提高效率，使相同性能的模型训练成本降低。然而，这些效率提升通常会被用于训练更智能的模型，而不是减少成本。
范式转变（Shifting the Paradigm）：AI训练的范式不断变化，例如从单纯的预训练模型转向使用强化学习来提升模型的推理能力。这种新的训练方式目前仍处于早期阶段，投入相对较少的资金即可获得显著的性能提升。

3. DeepSeek模型的分析

DeepSeek-V3：这是一个纯粹的预训练模型，有一些创新，但主要集中在工程效率方面（如改进“key-value cache”管理和“MoE”技术）实现了较低的训练成本，但其性能并未超越美国前沿模型（如Claude 3.5 Sonnet）。Amodei认为，DeepSeek-V3的成本降低是符合历史趋势的，并非独特的突破。
DeepSeek-R1：该模型引入了强化学习阶段，并且基本上复制了OpenAI在o1模型中所做的工作。由于目前处于强化学习的早期阶段，多个公司都可以在短时间内实现类似的性能提升，但这种情况将随着技术的发展而改变。

芯片出口限制的重要性

Amodei强调，芯片出口限制对于保持美国及其盟友在AI领域的领先地位至关重要。他预测，到2026-2027年，训练超越人类智能的AI模型将需要数百万颗芯片和数百亿美元的资金。
如果中国能够获得这些芯片，世界将进入“两极”格局，中美两国都将拥有强大的AI模型。
如果中国无法获得足够的芯片，世界将进入“单极”格局，只有美国及其盟友拥有这些模型，将占据优势。Amodei认为，严格的出口限制是防止中国获得大量芯片的关键，从而影响未来的世界格局。

DeepSeek的芯片来源与出口限制的效果

DeepSeek目前拥有的芯片（如H100、H800和H20）部分是通过合法途径获得的，部分可能通过走私获得。Amodei指出，出口限制政策正在逐步完善，封锁漏洞，这表明政策是有效的。
他强调，出口限制并非旨在阻止中国获得少量芯片，而是防止其获得大规模部署所需的数百万颗芯片。

https://darioamodei.com/on-deepseek-and-export-controls

（文：PaperAgent）

发表评论取消回复