喝点VC|光速美国:Deepseek仍未能全面赶超最强基础模型,迈向下一个前沿需要大量资本

来源:Lightspeed

Z Highlight

  • 尽管人们关注DeepSeek仅用了约600万美元进行训练,但如果只看这个数字,可能会是一种误导,因为600万仅是最终DeepSeek v3的训练运行成本。

  • 最终目标的实现才是最重要的。大型AI实验室的唯一目标是开发AGI——这才是真正的“登月工程”。

  • 现在美国的前沿模型公司应将AI的安全研究和开发列为优先事项。

近期,DeepSeek成功吸引了全世界的注意——在出口管制的限制条件下他们取得了非凡的成就,凭借创造性的工程解决方案,仅用600万美元训练出了一个强大的AI模型,也正是Anthropic创始人Dario Amodei呼吁加强出口管制的原因。这一成就值得认可,并且无疑会激励更广泛的AI生态系统进行进一步创新。

然而,同时也需要对DeepSeek的成就进行客观的审视:它代表的是AI发展和规模化第一阶段的一次迭代,而不是开启了新的篇章。

权力更迭:后训练(Post-Training)超越预训练(Pre-Training)

上一时代的AI发展主要围绕预训练的规模化和优化展开。早期进展依赖于在预训练过程中对计算能力和数据的大规模资本投入,以推动性能提升。领先的实验室——Anthropic、Google DeepMind、OpenAI——关注为模型训练奠定基础。DeepSeek的成功正是建立在这些早期投资之上,如果没有这些前期积累,它的突破是不可能实现的。

尽管人们关注DeepSeek仅用了约600万美元进行训练,但如果只看这个数字,可能会是一种误导,因为600万仅是最终DeepSeek v3的训练运行成本。我们推测其“全额”成本(包括基础模型训练、数据收集与处理、监督微调(SFT)、强化学习(RL)、各种研究实验等)可能与Claude 3.5 Sonnet或OpenAI GPT-4o等模型的训练成本相当。

在算法层面,DeepSeek主要通过高度规模化的强化学习(RL)来提升模型的推理能力。这种方法在美国的实验室中已经被研究了一段时间,美国的实验室也在运用更雄厚的资源同时研究多种新的RL训练方案,结合强大的计算能力和基础设施,才是真正推动AI迈向超智能(Super-Intelligence)的关键。DeepSeek的模型在当前规模、效率和能力上确实令人印象深刻,但仍未能全面赶超最强的基础模型。例如,Anthropic的Sonnet 3.5在代码推理能力上仍然遥遥领先于DeepSeek R1。

最终目标的实现才是最重要的。如果目标是登月,那么建造一颗近地轨道卫星只是一个干扰项。美国的大型AI实验室的唯一目标是开发AGI——这才是真正的“登月工程”,我们相信,它们具备独一无二的赢得这场竞赛所需的人才、资本和能力。

迈向下一个前沿需要大量资本……但终将值得

领先的AI实验室在过去几个月里一直专注于基于RL的新的后训练(post-training)方案,进展迅速。像DeepSeek R1这样的模型在短期内可能会在某些指标上与现有的顶级模型相匹配,因为它们行动迅速。但更重要的是,从长期来看,这种新范式的扩展规律表明训练更先进的模型需要指数级增长的计算和数据资源——只有少数公司才能负担得起这些资源。

鼓舞人心的是我们已经知道,这种方法的大规模运用能够显著提升下一代模型的能力,拓展AI的潜在应用场景,并进一步拉大领先实验室与中国AI能力之间的差距。

企业需要的不仅仅是一个模型

模型本身并非产品,企业在构建基于基础模型的AI解决方案时,需要的不仅是API提供的智能,和以往的技术浪潮一样,它们需要一整套基础设施来支持大规模的开发、测试、部署、监控和治理,企业必须深度关注安全性、合规性、法律责任、安全性、可解释性等诸多方面。

如何获胜

毫无疑问,美国在AI领域的领导地位已经引起了其他国家的关注。学界也在探讨未经授权的“蒸馏”潜在的影响(即使用某些方法提取和复制训练数据,而不会让模型提供方或模型本身察觉)。

目前,越来越多的共识认为DeepSeek的模型很可能是基于其他前沿模型的“思维”(Chain-of-Thought)输出进行训练的(但这违反了相关服务条款)。微软和OpenAI已正式展开调查,以确定DeepSeek是否未经授权大规模提取了训练数据。此前,TechCrunch和摩根大通(JPMC)在昨日的报告中也都报道了类似的怀疑。现在美国的前沿模型公司应将AI的安全研究和开发列为优先事项,这也是OpenAI设计的o1 reasoning tokens对用户屏蔽的原因之一。目前,可能已经有绕过这些初步防御的方法被发现。

美国确实是全球最杰出人才汇聚之地,能够推动这一代技术变革向前发展。为了确保人工智能的安全、可靠和受信任,我们需要在美国及其盟友内部开发人工智能。

原文:DEFENDING AMERICAN AI LEADERSHIP: DEEPSEEK IS A DISTRACTION, NOT A DISRUPTOR

https://lsvp.com/stories/defending-american-ai-leadership-deepseek-is-a-distraction-not-a-disruptor/

编译:Elaine Wang

——-

(文:Z Potentials)

发表评论