对DeepSeek的五大误解!

一家中国AI公司的开源模型引发了全球AI圈的地震!

DeepSeek的R1模型一经发布,就掀起了一场轩然大波。但在这场喧嚣背后,却弥漫着太多的误解和偏见

19岁就获得博士学位前Stability AI研究主管Tanishq 忍不住了,他直指这场风波中的五大谎言,揭开了这场AI恐慌的真相。

博士忍不住了,他直指这场风波中的五大谎言,揭开了这场AI恐慌的真相。

误解一:突然冒出来的可疑公司?

这个说法简直让人哭笑不得。

事实上,DeepSeek早在2023年11月就发布了业界领先的编程模型DeepSeek-Coder。整整一年来,他们稳扎稳打,不断推进技术创新。

看看这张进度图就知道了:

误解二:600万美元造不出这么强的模型!

这个质疑更有意思了。

根据DeepSeek-V3论文披露的数据:

论文中提到的550万美元仅仅是最终训练的成本。这还不包括:

  • 前期大量的实验成本

  • 研究人员高达百万美元的年薪

  • R1模型额外的强化学习训练费用

误解三:这是NVIDIA的末日?

这种说法简直是天方夜谭!

Tanishq博士表示,这完全是对算力扩展规律的误解。更高效的模型意味着同样的算力能发挥更大的价值,但并不意味着更多算力就没用了。

lee(@LeeLeepenkman) 补充道:「NVIDIA现在获得了更好的算法来运行他们的机器,可以用相同的硬件进行更高价值的计算。

误解四:抄袭美国公司?

事实恰恰相反!DeepSeek带来了多项重要创新:

  • 多潜在注意力机制:比传统的多头注意力更节省内存,性能更优

  • GRPO可验证奖励:创新的强化学习方案

  • DualPipe:全新的多GPU训练方案,大幅提升训练效率

误解五:靠吸取ChatGPT的知识?

美国政府AI顾问David Sacks和OpenAI都提出了这个质疑。但问题在于:

  • 如果使用公开数据集,这完全是合法的

  • R1模型的推理能力完全是自己的创新,因为o1的思维链过程从未公开过

Brandon Starks(@brandamnnnn)指出:「现在的战场在软件层面。想要赢的软件公司,都会想要获得最好的工具。这并不复杂。」

这场风波告诉我们:技术创新不分国界,而恐慌往往源于误解。

与其陷入无谓的争论,不如关注DeepSeek带来的技术突破。

最后,Magnus Ahlden 说到:

人们总是倾向于把它简单地看作『中国版拷贝』,而不是承认这个版本背后有多少伟大的创新。

(文:AGI Hunt)

欢迎分享

发表评论