刚刚，DeepSeek 首次披露成本利润率！还有大量技术细节

当人们以为 DeepSeek 开源周已经结束，刚刚 DeepSeek 又掏出了 One More Thing ，首次披露了其模型推理系统的成本利润率：545%，这一惊人数字背后是一系列精心设计的技术优化。

DeepSeek 在保证服务质量的同时，实现了极高的成本效益：

DeepSeek-V3/R1 推理系统面临两大挑战：如何提高吞吐量和如何降低延迟。

他们采用了大规模跨节点专家并行（Expert Parallelism/EP）技术。

DeepSeek-V3/R1 采用了MoE（混合专家）架构，每层有 256 个专家，但每个 token 只激活其中 8 个。这种高度稀疏的结构需要通过专家并行来提高效率：

专家并行就像是把不同特长的厨师分散到多个厨房（GPU）中：

1. 提高吞吐量：就像餐厅一次接待更多顾客（增大batch size）。当厨房里同时处理很多订单时，厨师们可以更高效地工作，不会有空闲时间，炉灶和切菜台都能充分利用。

2. 降低延迟：每个厨房只需要专注几种特色菜（每个GPU只计算少量专家），厨师不需要来回切换不同菜系，也不用频繁更换工具和食材，做菜速度自然更快。

DeepSeek 针对不同场景采用了不同的并行策略：

为了提高效率 DeepSeek 还采用了双批次重叠处理负载均衡策略

双批次重叠处理：就像厨师一边炒着这桌的菜，一边准备下一桌的食材。当一批订单在烹饪时，另一批订单的食材可以同时在配送中，这样厨房永远不会空闲。

负载均衡策略：

正因为这些技术优化，DeepSeek 即使在硬件受限的情况下，也能实现出色的推理性能。

卡住它的地方，反而变成了它的创新。

附 DeepSeek 官方原文🔗

https://mp.weixin.qq.com/s/dEEfMQgDK7y17yVjh6zblA

过去一周，DeepSeek 上演了「开源五连击」。

覆盖计算、通信、存储、算法与模型的协同创新，中国 AI 力量正在用开源精神，把曾经需要天价算力的技术，变得人人可用。

👇🏻 DeepSeek 开源周 APPSO 系列专题链接直达：

Day 1️⃣：搞懂 FlashMLA，这些细节要注意
Day 2️⃣：降本增效神器，榨干每一块 GPU
Day 3️⃣：300 行代码揭示 V3/R1 推理效率
Day 4️⃣：梁文锋亲自写的代码长什么样？
Day 5️⃣：开源周最后一天，重塑 AI 训练底层逻辑

（文：APPSO）