DeepSeek R1之后,AI创业、AI投资会发生什么变化?

自一月以来, DeepSeek 在 AI 领域引发了极大的热度,也出现了大量分析文章。其中来自 Leonis Capital 于 2.6 发表于 Substack 上的文章:「DeepSeek: A Technical and Strategic Analysis for VCs and Startups」

(原文:https://leonisnewsletter.substack.com/p/deepseek-a-technical-and-strategic)
无疑是我读到最为深度的一篇文章 – 不仅深入剖析了 DeepSeek 在技术架构上的创新,如其独特 MoE 架构、MLA 机制,等;还详细解读了 DeepSeek 在强化学习方面的革新,以及通过模型蒸馏技术实现 AI 民主化,和其对于整个AI生态(模型厂商、硬件厂商、应用层)的深远影响,特别是在成本大幅下降的环境下下,对于新势力初创公司的重大机遇。
注:技术解读和成本分析的部分在之前关于DeepSeek 的文章里多次聊到,这些内容就放在了文章结尾。
我们建了个DeepSeek R1 开发者交流群,切身聊一聊,今天创业,到底怎么用 R1。

进群之后,你有机会得到:

  • 高浓度的 DeepSeek 模型开发交流;

  • 资源对接,与 API、云厂商、模型厂商直接交流反馈的机会;

  • 好用、有趣的产品/案例,Founder Park 会主动做宣传。

DeepSeek 从根本上重塑了 AI 开发的经济模型,以远低于美国大模型厂商的成本实现了最先进的性能。尽管“550万美元可媲美OpenAI”的说法被严重夸大(实际的基础设施支出可能接近 10 亿美元)但他们的突破仍然令人瞩目。DeepSeek 在模型架构和训练效率方面的创新表明,与 OpenAI 和 Anthropic 等公司采用的传统方法相比,AI 开发和部署可以显著更具成本效益。
DeepSeek 的影响远远超出了单一公司的成就。对于初创公司、投资者和技术领跑者来说,DeepSeek 的出现标志着 AI 公司建立竞争优势的方式发生了根本性转变。随着基础模型变得更加高效和易于获取,我们看到了所谓的“护城河/Moat 2.0”的兴起——这是一个新的范式,竞争优势不再来自庞大的算力或数据集,而是来自公司如何构建、学习和部署 AI 系统。这种转变表明,下一波 AI 领导者将不是由谁拥有最多资源来决定,而是由谁能够最具创造性地为特定用例部署和优化 AI 系统来决定。

01 

Scaling Law终结?

围绕 DeepSeek 成就的广泛叙述引发了关于 Scaling Law的论断。行业有理由质疑模型性能是否总是越大越好。但这种观点忽略了关键的转变:我们看到的并非是scaling的终结,而是其向新维度的演变。正如我们在 「2025 State of AI」(https://www.leoniscap.com/deep-dives/the-state-of-ai-in-2025)报告中提到的那样,行业正从一个由预训练扩展(Pre-training Scaling)主导的时代转向一个后训练优化(Post-training Optimization)提供巨大未开发潜力的时代
Anthropic 的 CEO Dario Amodei 也指出,后训练阶段扩展 / Post-training Scaling机会可能会带来比传统预训练扩展 / Pre-training Scaling更大的改进。从 2020 年到 2023 年,主要scaling的是在互联网文本上训练的预训练模型。随着这种“大力出奇迹”方法带来的性能提升走到尽头,像 OpenAI 和 Anthropic 这样的厂商转向使用强化学习和思维链 / CoT作为新的 Scaling 重点。这种方法在提高数学、编码和科学推理等可衡量任务的性能方面特别有效。在 2025 年,我们可以期待这种以后训练为中心的Scaling会带来更多成果,包括更复杂的强化学习方法、更好的合成数据生成以及更高效的推理时计算——这些领域我们才刚刚开始探索。
然而,DeepSeek 的成就确实表明,支出与性能之间的关系并非线性。通过像 MoE 和 MLA 这样的架构创新,他们用更少的资源实现了更多的成果——这类似于半导体行业在 2000 年代末遇到 CPU 时钟速度墙时的演变。正如芯片制造商在原始时钟速度之外找到了新的改进向量——多核架构、先进封装和并行计算——AI 开发并非撞上了墙,而是在多样化其扩展向量。
主要大模型厂商的行动支持了这种更细致的观点。大型模厂商仍在继续进行大规模的基础设施投资。OpenAI 刚刚宣布了其 5000 亿美元的 Stargate 基础设施计划,xAI 推出了其 10 万卡 GPU 的 Colossus 超级数据中心,Meta 正在计划 2026 年的 2GW的数据中心,其他公司也在预测数十亿美元的 AI 开发投资。这些投资表明,Scaling 并未终结——它正在演变。未来可能会同时出现这两种情况:通过架构创新继续提高效率,以及进行大规模基础设施投资以推动可能性的边界。

02 

DeepSeek 对不同市场细分的影响

DeepSeek 的出现代表了 AI 进化的一个关键转折点,但其对市场不同细分领域的影响却截然不同。DeepSeek 并非仅仅挑战美国 AI 的主导地位,其创新正在以复杂且常常出人意料的方式重塑整个行业的竞争格局。在这里,我们将深入探讨 DeepSeek 对 AI 领域不同参与者的冲击。
2.1 闭源模型提供商:估值与定价挑战
DeepSeek 的突破从根本上挑战了支撑 AI 巨额估值的叙事。OpenAI 1570 亿美元的估值以及 Anthropic 的融资都是建立在这样一个假设之上:具有竞争力的模型能力需要数十亿美元的投资,从而形成了天然的进入壁垒。然而,即使考虑到 DeepSeek 真正的 16 亿美元基础设施成本,这也表明这些 AI 公司的护城河并没有投资者所认为的那么坚不可摧,其成本大约仅为美国竞争对手为实现类似能力所花费的十分之一。
这种压力不仅体现在估值上,还体现在核心商业模式上。尽管 DeepSeek 的模型可能无法完全匹配 OpenAI 和 Anthropic 的能力,但它们已达到许多应用的“足够好”门槛——据估计,其能力达到 80% – 90%,但成本却只是其中的一小部分。这给 API 定价带来了巨大的下行压力,这一点已从 OpenAI 决定使其 o1 和 o3 – mini 模型免费这一举措中得到证实。一个根本性的问题由此产生:当有免费的开源替代品可供选择时,公司如何能够为高级 API 定价提供合理依据?
Anthropic 面临着尤其巨大的压力。与已从软银获得 150 亿美元资金并宣布 5000 亿美元 Stargate 计划的 OpenAI 不同,Anthropic 尚未获得足够的资金来支持其下一个模型训练周期。DeepSeek 发布之时,正值 Anthropic 正在商谈以 600 亿美元估值筹集 20 亿美元资金之际。鉴于 DeepSeek 可能会搅乱 Anthropic 的融资叙事,Dario Amodei 成为了对中国 AI 发展实施出口管制的坚定倡导者。
2.2 开源社区:冰火两重天
DeepSeek 的崛起在开源 AI 社区中得到了广泛庆祝,有一个显著的例外:Meta。
自 DeepSeek-R1 发布以来,Meta 进入了危机模式,成立了四个独立的“战情室”,由工程师们组成,试图弄清楚一家相对不知名的中国初创公司是如何实现 Meta 巨额投资未能做到的事情。Meta AI 基础设施总监 Mathew Oldham 已警告同事们,DeepSeek 的模型可能会超越他们即将在 2025 年初发布的 Llama 4。时机再糟糕不过了:Meta 刚刚承诺在来年为 AI 项目投入 650 亿美元,而其作为开源 AI 开发领导者这一自我标榜的地位正受到一个更小、更高效竞争对手的挑战。
Meta 通过提供丰厚的薪酬从 OpenAI 和 Anthropic 挖资深 AI 研究员的策略,与 DeepSeek 的方式形成了鲜明对比。DeepSeek 并没有去追逐已成名的人才,而是主要从清华、北大等国内顶尖高校应届毕业生中组建团队,优先考虑原始天赋而非经验。这种策略不仅降低了成本,还培养了一种更具实验性、更少官僚气息的文化。现在,Meta 的“战情室”面临着一项令人难堪的任务,那就是去理解一个更精简、更年轻的团队是如何实现突破性的效率提升的——DeepSeek-V3 的整个训练成本甚至低于 Meta 为个别leader的薪酬。
和 Meta 一样,开源社区的大部分成员也在努力理解 DeepSeek 的突破,但他们持有更加庆祝的态度。Hugging Face 发起了合作的 Open-R1 项目,系统地重建 DeepSeek-R1 的能力。他们的 Open-R1 计划旨在填补 DeepSeek 公开发布中的空白:尽管模型权重是公开的,但数据集和训练代码仍然保密。该项目计划复现蒸馏模型以及创造了 R1-Zero 的纯RL流程,同时开发用于数学、推理和代码的新大规模数据集。
Hugging Face的三步复现方法
2.3 基础设施及硬件厂商:高效 AI 的悖论
市场对 DeepSeek 的最初反应是英伟达股价下跌了 17%,这可能暗示了一个简单的关于 GPU 需求减少的叙事。然而,现实更为复杂,可能指向的是基础设施需求的转变,而非减少。为了应对股市恐慌,英伟达发表声明称,随着 DeepSeek 推出其服务,DeepSeek 实际上会增加对其推理芯片的需求。这与我们的观察大致相符。自 DeepSeek 发布以来,H100 和 H200 的价格实际上有所上涨,展示了经济学家所说的杰文斯悖论/Jevons Paradox:效率的提高往往会增加而非减少总资源消耗。
这种需求激增源于几个相互关联的因素。首先,尽管 DeepSeek 优化了训练成本,但运行这些模型进行推理仍然需要大量算力。据报道,H200 芯片是唯一广泛可用的选项,能够在单个节点(8 个芯片)上以完整形式运行 DeepSeek 的 V3 模型。其次,DeepSeek 的开源发布促使许多组织在本地运行这些模型,特别是那些对使用中国公司的 API 有数据隐私担忧的组织。这种向本地部署的转变进一步得到了英伟达 CUDA 生态系统在 AI 开发工具和工作流中的深度嵌入的加强。
DeepSeek 的蒸馏模型的影响为这一效率悖论增添了另一层复杂性。他们的 7B 模型能够在更普通的硬件上运行,同时保持令人印象深刻的性能,乍一看似乎会减少对 GPU 的需求。然而,这种可访问性实际上正在扩大 AI 硬件的总TAM。虽然这些较小的模型可以在消费级 GPU 上运行,使更广泛的用户和应用能够部署 AI,但它们同时也在推动整体基础设施需求的上升。创建这些蒸馏模型仍然需要大量的 GPU 资源——该过程需要更大的“教师”模型进行训练和持续的微调。它们的效率还使得以前不切实际的全新应用成为可能,从实时 AI 处理到边缘计算部署,扩大了 AI 硬件的整体市场。随着这些模型使 AI 更易于获取,我们看到了一个清晰的模式:组织通常从较小的模型开始,但随着需求和雄心的增长,逐渐升级到更强大的硬件。它为 GPU 采用创造了一个新的“入口”——公司可以从规模较小的模型开始,但随着他们扩展 AI 能力,不可避免地会需要更多的计算能力。
我们已经在 AI API 定价中看到了这种“杰文斯悖论”的体现。当 Claude 3.5 Sonnet 以 GPT-4 价格的十分之一推出时,尽管其性能更优,但这并没有减少整体的基础设施需求——相反,它极大地扩展了 AI 服务的市场,并推动了更高的总计算使用量。
对于云厂商来说,影响同样重大。公司们并没有减少投入,而是加倍下注基础设施投资,但采取了更为复杂的方法。OpenAI 的 5000 亿美元 Stargate 计划和 Meta 的 650 亿美元投资计划不仅仅关乎算力——它们关乎构建能够同时处理高效训练和大规模推理的优化基础设施。即使训练变得更加高效,对推理芯片的需求,尤其是针对推理优化的 H20 芯片,仍在持续增长。
云厂商之所以经历需求激增,正是由于这些效率突破。随着 AI 变得更具成本效益,他们的企业客户迅速扩大了 AI 项目,需要更多的云基础设施,而不是更少。云厂商竞相将 DeepSeek 的模型和类似的高效架构整合到他们的平台上,但运行这些模型的大规模复杂要求——包括特殊的网络、冷却和电力输送——实际上加强了客户对超大规模基础设施的依赖,而不是削弱了它。尽管 DeepSeek 的模型每次计算所需的能量更少,但 AI 工作负载总量的大幅增加意味着云厂商仍在计划大幅提升他们的数据中心规模。
2.4 应用开发者和初创公司:通过效率创造新机遇
DeepSeek 的 550 万美元的训练成本引发了关于民主化 AI 开发的兴奋,但这从根本上误解了他们取得突破的原因。他们的成就建立在可能超过 10 亿美元的复杂基础设施之上,以及一个在硬件优化方面拥有深厚专业知识的专门工程师团队——这些资源他们只是通过幻方支持才得以获得。对于初创公司来说,真正的革命不在于训练新模型,而在于部署它们:大幅降低的 API 成本和更高效的较小模型正在为 AI 创造全新的可能性。
OpenAI 的 API 定价历来迅速下降。DeepSeek 将会对 o1 的价格产生下行压力。
对于正在构建复杂 AI 应用程序,尤其是在新兴的Agent领域,API 成本很快变得难以承受的初创公司来说,成本效率突破尤其具有重大意义。
DeepSeek 的 7B 蒸馏模型开辟了另一个前沿领域:边缘部署。这个较小但功能强大的模型使得在设备上直接运行复杂的 AI 成为可能——从可以在偏远地区离线工作的 AI 驱动的医疗设备到需要实时处理而无需云延迟的智能制造系统。通过降低计算和内存需求,这些模型使得在以前由于云或成本问题而使部署不切实际的环境中能够使用 AI 应用程序。

03 

迈向护城河2.0 / Moat 2.0

日益强大的基础模型正在改变应用公司的护城河本质。DeepSeek 的发布无疑加速了这一转变。首先,DeepSeek 的成功表明,与“套壳”叙事相反,应用层可能比模型层拥有更大的护城河。模型性能的边际改进不再足以实现差异化,对计算和人才的昂贵投资也不再能保证长期优势。如果 DeepSeek 让模型厂商的日子变得艰难,那么接下来的问题就是:应用初创公司可以在哪里建立护城河?
答案是,我们看到了一种新的竞争护城河范式——我们称之为Moat 2.0——它超越了依赖于数据量或静态网络效应的传统 SaaS 护城河。相反,它来自三个关键要素:
3.1 垂直Agent网络。
垂直化的多Agent网络代表了 AI 护城河的下一个前沿,由行业中的两个基本转变推动:部署成本的暴跌和更易获取到的高性能模型。像 DeepSeek 这样的高效架构的创新表明了一个更广泛的趋势,即运行多个专业Agent在经济上变得可行。这种成本结构使得公司能够大规模部署特定行业的Agent网络。例如,在法律科技领域,专门从事合同分析、案例法研究和合规监管的Agent可以协同工作,每个Agent通过专注于特定领域的任务而变得越来越有效。开源模型的广泛传播提供了另一个关键优势:公司可以在特定行业的数据上对这些Agent进行微调,创建针对其垂直领域的优化定制模型。这种高效部署与定制能力的结合,使得比平台更深的护城河成为可能,因为每个网络积累的特定行业知识几乎不可能被通用系统复制。
3.2 数据学习循环。
随着基础模型的普及化,竞争优势从原始数据量转移到了学习速度上。胜出的不一定是拥有海量数据集的既有参与者,而是能够构建更快、更高效数据飞轮的公司。通过专注于新颖的收集机制、具有独特属性的合成数据集,或激励高质量用户互动的平台,公司可以创建提供真正竞争优势的专门数据集。然后,每次互动都有助于完善模型对其运行原则的理解,构建随时间累积的机构知识。
3.3 部署复杂性。
这代表了应用公司最直接但常常被忽视的竞争优势来源。Perplexity AI 强有力地证明了这一点:尽管没有拥有任何基础模型,他们仅通过卓越的部署架构就打造出了优秀的产品。通过智能地协调多个模型之间的 API 调用、实施复杂的缓存策略以及优化请求路由,他们实现了通常超过单一模型解决方案的性能。随着 DeepSeek 蒸馏模型的出现,这种模式将变得更加突出,因为公司可以根据具体需求混合本地部署、API 调用和边缘计算。关键不仅在于选择这些选项,而在于有效地协调它们——知道何时使用 API 调用以获得灵活性,何时在本地运行模型以保护数据隐私,以及何时将较小模型部署到边缘设备以应对对延迟敏感的应用。随着模型的普及化,这种部署复杂性成为主要的差异化因素。

04 

新的算力经济模型

DeepSeek 的效率突破本质上重塑了 AI 部署的经济模型。随着推理成本的暴跌,以前限制 AI 应用的约束正在消失。优秀的应用品类将从以前受算力限制的领域中涌现出来。这就需要我们所说的“经济弹性”——设计能够在成本趋近于零时无缝扩展的系统。我们以前见过这种模式:YouTube 建立其基础设施时就预期到了带宽和存储成本的不可避免的下降,而 Netflix 在对大多数消费者来说在经济上可行之前就承诺了流媒体服务。
最具创新力的公司将超越当前的计算限制,提出一个根本性的问题:当 AI 互动成本趋近于零时,什么成为可能?以下几种可能性:
  • 大规模自主网络Agent:如今,AI Agent的变革潜力因其成本而受到限制。OpenAI 的 Operator 就体现了这一问题:尽管在 ARC-AGI 基准测试中达到了 87.5% 的准确率,但其每项任务 1000 美元的成本(甚至在低算力模式下每项任务 20 美元)使得持续运行在经济上无法实现。但想象一下,在一个运行类似 Operator 的Agent只需几分钱而不是数千美元的世界里,全新的应用品类将变得可行。我们将看到这些Agent被大规模部署,以解读和应对实时数据,用于市场监测、内容审核、自动化交易等。
  • 大规模多Agent架构:低成本算力的经济模型从根本上改变了Agent的架构设计。AI 成本的降低使分布式Agent网络取代了单一Agent系统。以药物发现为例:与其让一个大模型尝试处理分子建模、文献综述和实验设计,不如让专业Agent并行工作——一个优化分子结构,另一个分析研究论文,还有其他Agent设计和验证实验。这种分布式方法不仅更高效,而且通过Agent的专业化和协作实现了新能力。这种架构具有内在的弹性:公司可以根据问题的复杂性上下调整其Agent网络的规模,同时优化能力和成本。这反映了云计算如何改变了软件开发,但对解决问题的能力有着更深远的影响。
  • 边缘智能和 AI 助手:边缘部署的经济模型正接近一个转折点,类似于智能手机如何改变了移动计算。如今的 7B 模型仍然需要大量的计算能力,限制了边缘 AI 只能执行基本任务。但随着模型效率的提高和专用 AI 硬件的普及,边缘部署将从受限转向持续运行。这使得环境智能成为可能——AI 系统在环境中持续运行,而不是被明确调用,就像 AWS Lambda 将云计算从持久服务器转变为事件驱动的函数一样。通过将 AI 模型和推理能力推送到边缘设备,初创公司可以解锁一系列以前因延迟、带宽或连接限制而不可行的新应用。其影响是深远的:制造工厂将通过智能传感器部署实时质量控制,医疗设备将在没有云连接的情况下监测患者生命体征并检测异常,AR 系统将提供即时场景理解而无需往返延迟。

05 

VC投资新主题

在过去的三年里,投资者们以一个简单的公式来对待 AI 初创公司:巨额资本 + 顶尖人才 = 技术突破。DeepSeek 的出现揭示了一个远比这更复杂、更细致的投资格局。它的技术创新表明,在 AI 领域,真正的竞争优势越来越根植于架构的巧妙和成本效率,而不仅仅是规模。以下是作为投资者的我们从 DeepSeek 的发布中学到的三个重点。
5.1 经济弹性作为战略要务。
将定义 AI 未来的初创企业将是那些能够展现我们所说的“经济弹性”的企业——即随着新的效率突破的出现而迅速适应和扩展的能力。这意味着要超越基准分数和参数数量等表面层面的指标。投资者必须深入探究那些使初创企业能够顺应计算成本下降浪潮的架构决策和基础设施创新。他们不仅要评估一家公司的现有能力,还要评估其把握未来机会的准备情况。另外,这还包括向基于结果的定价转变,在这种定价模式下,AI 系统的价值不是由计算投入来衡量,而是由交付的切实成果来衡量。
5.2 风险投资公司需要重新构想人才评估框架。
在一个常常出人意料的地方产生最突破性创新的行业里,对文凭和出身的传统依赖正变得越来越不相关。投资者不能再依靠高级研究员数量或发表的论文数量来评估一个团队的技术能力。相反,重点应该转移到那些已经证明有能力挑战现有范式、带来跨学科视角的智力多样性以及快速学习和技术适应能力的团队上。
5.3 模型厂商和应用厂商之间将出现市场分化。
一方面将是模型厂商,他们无疑将看到巨大的创新,但会变得越来越商品化。尽管他们的工作对于拓展可能性的边界至关重要,但研究的快速传播和计算成本的下降将使他们越来越难以保持竞争优势。另一方面将是应用厂商,那些能够将这些基础模型整合到惊艳、以用户为中心的产品和服务中的人。在过去的三年里,许多投资者把 AI 应用视为“套壳的”,但这些应用比大多数人预期的要更有韧性。我们一直认为,应用层才是真正的价值获取发生的地方——在这里,我们将看到 AI 时代的谷歌、亚马逊和苹果。

06 

技术解读/Technical Primer

要理解 DeepSeek 的突破,首先需要认识到我们实际上是在看两个不同的模型:DeepSeek-V3 / 基础模型,以及 DeepSeek-R1 / 推理模型。这种关系类似于 OpenAI 的 GPT-4o 和 o1:强大的基础模型都为特定推理模型提供了基座。尽管 DeepSeek-R1 最近反响巨大,还引发了英伟达股价 17% 的下跌,实际上 DeepSeek-V3 才是更具重大意义的技术突破,在 550 万美元训练成本下实现了与 GPT-4o 相当的性能,而 DeepSeek-R1 则在推理端与 OpenAI 的 o1 对标。

DeepSeek-V3 的性能表现;V3 在许多基准测试中与 GPT-4o 相当或优于 GPT-4o 。

DeepSeek-R1 的性能表现;R1 在许多推理任务上与 o1 相当。

之后,我们将用通俗易懂的语言来剖析 DeepSeek 的关键技术创新,即便没有技术背景也能理解。从他们对模型架构的新方法到他们在内存效率方面的突破,这些进步有助于解释 DeepSeek 是如何以传统成本的一小部分实现竞争性能的。
[技术方面的关键要点是,DeepSeek 通过创新的架构设计以传统成本的一小部分实现了高性能。以下是关于技术的简要总结:]
  • 混合专家 / MoE 架构→ 选择性激活的专业专家
  • 多头潜在注意力 / MLA 机制→ 高效的内存存储
  • GRPO(组相对策略优化)→ 通过比较输出质量的反馈来学习
  • 蒸馏 / Distillation → 让小模型从大模型吸收知识
6.1 MoE 混合专家:模型架构的新范式
DeepSeek 方法的基石是他们对 MoE 架构的创新实施。与传统模型每次预测都激活所有参数不同,DeepSeek-V3 每个 token 只激活其总共 6710 亿参数中的 370 亿个。这种选择性激活是通过他们的无辅助损失负载平衡系统(Auxiliary-loss-free load balancing system)实现的,该系统通过动态偏差调整来提高训练的稳定性和效率,这类似于现代云架构动态分配资源的方式,但应用于神经网络层面。

DeepSeek 的架构 – 这种架构巧妙地结合了选择性专家激活(MoE)与高效的内存管理(MLA),以较低的成本实现了高性能。
特别值得关注的是其 DualPipe 系统,用于流水线并行。这一创新解决了分布式 MoE 模型最具挑战性的方面之一:管理不同专家网络之间复杂的信息路由。DualPipe 通过重叠计算和通信阶段来实现这一点——想象一个高度复杂的装配线,产品同时被处理和运输,而不是顺序进行。结果是一个更高效、更可扩展的架构,在预训练期间处理了高达 14.8 万亿个 token,几乎零通信开销。
DeepSeek 实施的独特之处在于他们使用自定义的 PTX 指令(本质上是英伟达 GPU 的汇编语言)来优化这些操作。在 AI 开发中这种底层硬件优化极为罕见,大多数研究人员使用英伟达的 CUDA 平台等高级框架。这种能力可能源于其母公司幻方在高频交易方面的背景,在高频交易中,编写此类底层代码对于竞争优势至关重要。这种 AI 专业技能与深厚的硬件优化技能相结合,代表了 AI 效率竞赛中的一个显著竞争优势。
6.2 打破内存墙
DeepSeek 的多头潜在注意力 / Multi-Head Latent Attention (“MLA”) 机制在内存效率方面取得了突破,与标准注意力机制相比,内存开销减少了惊人的 93.3%。MLA 机制最初是在 DeepSeek-V2 中引入,专门针对存储对话上下文的 KV 缓存这一内存密集型组件。通过显著减少这些内存需求,MLA 使推理变得更具成本效益,能够进行更长的对话,而不会导致计算成本成比例增加。DeepSeek 还针对他们的 H20 GPU 进一步优化了它,实现了比 H100 更好的内存带宽和容量利用率。
与之相辅相成的是他们的多 token 预测 / Multi-Token Pridiction(“MTP”)系统,该系统使模型能够同时预测多个 token。DeepSeek 团队以前所未有的规模实现了 MTP。这不仅仅是关于速度——它从根本上改变了训练和推理的效率方程。与他们实施的 FP8 混合精度训练相结合,这些创新使 DeepSeek 实现了他们令人惊叹的 550 万美元训练预算。
6.3 强化学习革命
或许最值得一提的是 DeepSeek 通过纯粹的强化学习 / RL来改进模型的方法。他们的 R1 模型引入了 GRPO(组相对策略优化)算法,使模型能够在没有明确正确答案的情况下优化其行为。与其他 RL 模型相比,GRPO 直接针对正确性进行优化,无需复杂的奖励模型。这种效率在模型的学习轨迹中显而易见:如下图所示,DeepSeek 的 R1 展示了随时间稳步上升的性能曲线。改进的速度相当惊人,最终超过了 OpenAI 的 o1。
GRPO 的实施重点关注两个关键领域:格式化(确保连贯的输出)和有用性 / 无害性优化。推理能力在对合成数据集进行微调期间出现,与 o1 的发展路径相似。然而,特别值得注意的是,尽管竞争方法通常需要大量的计算来进行奖励建模,但 GRPO 以更精简的方式实现了类似的结果。这种自我改进能力在需要复杂推理的领域特别有效,例如数学问题解决和编程。
6.4 通过蒸馏实现 AI 的民主化 
DeepSeek 取得的成就不仅在于其在大模型的性能,还在于他们通过蒸馏创建小模型能力。在蒸馏过程中,大型“教师”模型为小型“学生模型”提供训练数据。DeepSeek 的 7B 模型在关键基准测试中的表现惊艳,超过了包括 QwQ-32B-Preview 在内的许多更大模型。其方法表明,大模型的推理模式可以有效地转移到更小的模型上。对于初创公司和开发者来说,这意味着可以访问接近SOTA模型能力,而无需巨大的基础设施成本。

蒸馏工作原理的简单示意图。来源:Neptune AI。
6.5 将以上创新协同在一起
DeepSeek 的架构创新和谐地协同工作,每个组件都增强并补充其他组件,共同创造了一个高效且强大的系统。MoE 高效地将信息导向专业专家网络,只为每个任务激活最相关的参数,而 MLA 压缩并存储关键信息,减少内存开销并使得能够处理更长的序列。GRPO 通过比较输出质量并进行有针对性的更新,持续完善模型的决策制定,允许在没有明确标记数据的情况下提高性能。最后,蒸馏将大模型的能力转移到更小模型版本上,使最先进的模型更易于获取和负担得起,并能够更广泛应用。
本质上,DeepSeek 不仅推动了 AI 的可能性边界,还重新定义了我们对模型大小、计算成本和性能之间关系的思考方式。这种工程卓越与技术创新的罕见结合使 DeepSeek 成为 AI 领域的真正开拓者。

07 

DeepSeek 的实际经济模型

尽管新闻上宣传 DeepSeek 的训练成本只有 550 万美元,但其投资的实际情况要大得多。事实上,DeepSeek 的技术论文也承认,550 万美元的数字仅涵盖了用于训练 DeepSeek-V3 的 GPU 算力成本,并未包括前期研究、基础设施或运营成本。
DeepSeek 拥有的 GPU 数量也远多于他们在论文中提到的 2048 张 H800,因为 大模型厂商在全面投入训练之前,需要许多额外的 GPU 来运行实验和进行研究。值得注意的是,DeepSeek 在信息披露方面有所选择,仅公布了其 V3 模型的成本数字,而未披露对 R1 的训练成本,这可能是为了避免引起对其真实 GPU 基础设施规模的关注,尤其是在出口管制敏感性方面。

【江信凌注:以下GPU估算数字引自第三方SemiAnalysis的研究报告】
根据 SemiAnalysis 的详细调查,DeepSeek 总的服务器基础设施投资接近 16 亿美元,其中约 5 亿美元专门用于 GPU 。这包括他们庞大的 GPU 集群:约 5 万张 Hopper GPU,分布在不同型号中——1 万张 H800、1 万张 H100,其余为 H20。16 亿美元的数字不仅涵盖了 GPU,还包括了在此规模下运营所需的完整服务器系统、网络设备和数据中心设施。除了资本支出外,他们还承担了约 9.44 亿美元的运营成本,以维护这些系统,包括为顶尖人才提供最高 130 万美元的薪酬package。
DeepSeek 的 GPU 资源估算。
DeepSeek 能够进行如此大规模的资本支出,源于其与幻方的独特关系,幻方是国内的头部量化基金之一。这种合作关系始于 2023 年 5 月 DeepSeek 从幻方分拆出来,使得 AI 研发和量化交易操作之间能够共享资源利用。值得关注的一点是幻方在 2021 年购买了一万张 A100 卡,且是在 GPU 出口管制之前。
LeCun 的推文指出训练和推理成本的区别
尽管在基础设施方面作了大量投资,DeepSeek 的技术方法与美国选手相比仍显示出显著的效率提升。将 DeepSeek 的 16 亿美元投入放在一个合适的语境下 – 截至 2025 年 2 月,OpenAI 已经筹集了总计 179 亿美元的资金;与 Anthropic 到目前为止筹集的总资金相当。有传言称 OpenAI 今年将寻求额外的 400 亿美元新资金。这意味着 DeepSeek 可能在基础设施成本方面仅约为美国主要大模型厂商的十分之一。
然而,值得注意的是,美国大多数大模型厂商的基础设施投资实际上都用于推理——为未来部署和扩展其模型做准备——而不是训练成本。DeepSeek 的 550 万美元数字仅涵盖了训练成本,但总推理和训练成本接近 10 亿美元。将训练单个模型的成本与建立整个未来就绪的 AI 基础设施的成本进行比较是极具误导性的。理解这一完整的经济模型对于评估 DeepSeek 成就的规模及其对 AI 行业的含义至关重要。

08 

最后的思考

当我们站在 AI 发展的这个转折点上时,DeepSeek 的突破迫使我们重新考虑关于 AI 中竞争优势的基本假设。传统的观点——即进步是算力资源的简单函数——已经被颠覆。相反,我们看到了 Moat 2.0 的出现,竞争优势是通过复杂的部署、快速的学习周期和垂直专业化建立起来的,而不是通过算力。
对于初创公司和投资者来说,这既是一个挑战,也是一个前所未有的机会。在这个新环境中的胜利者将不是那些能够积累最多算力资源的人,而是那些能够最明智地将这些资源转化为突破性能力的人。成功将由创造能够用更少资源做更多事情的适应性、智能系统的能力来定义——那些将技术限制视为创新邀请而不是障碍的公司。


图片


(文:Founder Park)

欢迎分享

发表评论