卡住DeepSeek的脖子,不足为虑~

随着近期DeepSeek的一系列模型发布:DeepSeek V3、DeepSeek R1、Janus-Pro,引起了OpenAI、微软、Anthropic的极大“关注”:

OpenAI:表示有证据显示中国的DeepSeek使用其模型来训练竞争对手

微软:正在调查与DeepSeek有关的团体是否不当获取了OpenAI的数据?

Anthropic的CEO Dario Amodei更是发表长文《On DeepSeek and Export Controls》探讨了美国对中国芯片出口限制政策以及中国AI公司DeepSeek的最新进展,其核心观点:
DeepSeek V3有创新但只是集中在工程效率方面,DeepSeek R1只是复制OpenAI o1的工作,加大芯片出口限制,中国无法获得足够的芯片,美国及其盟友将占据优势。

DeepSeek的进展与美国AI公司的竞争

  • DeepSeek最近发布的AI模型(如DeepSeek-V3和R1)在某些方面接近美国前沿AI模型的性能,且成本更低,但这并不意味着DeepSeek对美国AI公司构成直接威胁。Amodei认为,DeepSeek的进展并没有削弱美国对中国芯片出口限制的理由,反而使这些政策变得更加重要。

AI发展的三个动态

  • 规模法则(Scaling Laws):AI系统的性能随着训练规模的增加而提升。例如,投入更多的资金用于训练可以显著提高模型的性能。

  • 曲线平移(Shifting the Curve):AI领域不断出现新的技术和硬件改进,这些改进可以提高效率,使相同性能的模型训练成本降低。然而,这些效率提升通常会被用于训练更智能的模型,而不是减少成本。

  • 范式转变(Shifting the Paradigm):AI训练的范式不断变化,例如从单纯的预训练模型转向使用强化学习来提升模型的推理能力。这种新的训练方式目前仍处于早期阶段,投入相对较少的资金即可获得显著的性能提升。

3. DeepSeek模型的分析

  • DeepSeek-V3:这是一个纯粹的预训练模型,有一些创新,但主要集中在工程效率方面(如改进“key-value cache”管理和“MoE”技术)实现了较低的训练成本,但其性能并未超越美国前沿模型(如Claude 3.5 Sonnet)。Amodei认为,DeepSeek-V3的成本降低是符合历史趋势的,并非独特的突破

  • DeepSeek-R1:该模型引入了强化学习阶段,并且基本上复制了OpenAI在o1模型中所做的工作。由于目前处于强化学习的早期阶段,多个公司都可以在短时间内实现类似的性能提升,但这种情况将随着技术的发展而改变。

芯片出口限制的重要性

  • Amodei强调,芯片出口限制对于保持美国及其盟友在AI领域的领先地位至关重要。他预测,到2026-2027年,训练超越人类智能的AI模型将需要数百万颗芯片和数百亿美元的资金。

  • 如果中国能够获得这些芯片,世界将进入“两极”格局,中美两国都将拥有强大的AI模型。

  • 如果中国无法获得足够的芯片,世界将进入“单极”格局,只有美国及其盟友拥有这些模型,将占据优势。Amodei认为,严格的出口限制是防止中国获得大量芯片的关键,从而影响未来的世界格局。

DeepSeek的芯片来源与出口限制的效果

  • DeepSeek目前拥有的芯片(如H100、H800和H20)部分是通过合法途径获得的,部分可能通过走私获得。Amodei指出,出口限制政策正在逐步完善,封锁漏洞,这表明政策是有效的。

  • 他强调,出口限制并非旨在阻止中国获得少量芯片,而是防止其获得大规模部署所需的数百万颗芯片。

https://darioamodei.com/on-deepseek-and-export-controls

(文:PaperAgent)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往