本周是被 DeepSeek 的开源项目支配的一周。
1. AI 加速引擎:FlashMLA
https://github.com/deepseek-ai/FlashMLA
当我们使用 ChatGPT 这类 AI 助手时,模型需要一个字一个字地“思考”并输出回答,这个过程在技术上被称为“解码”。
FlashMLA 是 DeepSeek 开源的一款“AI 加速器”,就像汽车的涡轮增压器,能让大语言模型生成回答的速度大幅提升。这个技术专为最新的 NVIDIA H100/H800 等高端 GPU 设计,通过优化内存使用和计算方式,让 AI 模型回复更加流畅迅速,无论处理长文本还是短对话都能高效运行。
简单来说,它能让 AI 聊天机器人回答问题的速度更快、处理更多用户请求,同时不需要增加硬件投入,就像给 AI 装上了“超级大脑”。

2. 任务调度优化:DeepEP
https://github.com/deepseek-ai/DeepEP
想象一个大型企业,各个部门有各自领域的专家,当遇到复杂问题时,需要快速将任务分配给最合适的专家团队,然后再整合他们的解决方案。在 AI 世界中,最先进的大语言模型也在用类似的“专家混合系统”(Mixture of Experts,MoE)工作方式。
DeepEP 就像是一个高效的“任务调度中心”,它专门解决 AI 模型中不同“专家”之间需要高速交换信息的挑战。当模型处理问题时,它会将任务分发给最适合的“专家”,再收集整合这些专家的答案,这个过程需要大量数据在不同 GPU 甚至不同服务器之间传输。
DeepEP 通过优化这个通信过程,让数据传输速度提升到接近硬件极限,同时还提供了两种工作模式:一种适合大批量训练(追求高吞吐量),另一种适合实时对话(追求低延迟)。这让 MoE 模型运行得更快、更高效,使得像 DeepSeek-V3
这样的 AI 模型能够更智能、更经济地工作。

3. 矩阵计算加速:DeepGEMM
https://github.com/deepseek-ai/DeepGEMM
当我们用电脑处理复杂的数学问题时,最基础也最耗时的操作就是矩阵乘法。在 AI 领域,这种计算每秒要进行数万亿次,因此哪怕是微小的速度提升也能带来巨大收益。
DeepGEMM 就像是 AI 世界的“计算加速器”,专门优化了大语言模型中最核心的 FP8(一种低精度数据格式)矩阵乘法计算。它不仅支持普通的密集矩阵计算,还特别针对专家混合模型(MoE)设计了特殊处理方式。
虽然这个库的核心代码仅有约300行,却能在 NVIDIA 最新的 Hopper GPU 上实现超过1350万亿次每秒的计算速度,比专家精心调优的库还要快!更值得称赞的是,它的设计非常简洁,没有复杂的依赖关系,甚至可以作为学习材料,让人们了解如何优化高性能计算。
简单来说,DeepGEMM 让大语言模型的“大脑”计算速度更快,同时还降低了功耗和成本,是 DeepSeek-V3
模型高效运行的重要推动力。

4. 优化并行策略:DeepPipe & EPLB
DualPipe:https://github.com/deepseek-ai/DualPipe EPLB:https://github.com/deepseek-ai/eplb Profiling Data in DeepSeek Infra:https://github.com/deepseek-ai/profile-data
开源的第四天,DeepSeek 发布了两个专门优化 AI 模型计算效率的并行计算工具,它们让模型运行得更快、更省资源。
DualPipe 就像是一个双向交通系统。在传统的 AI 模型计算中,数据需要先向前流动完成,再向后流动进行调整,中间会有很多等待时间。这个新技术巧妙地让数据同时在两个方向流动,实现了计算和通信的完美重叠,大大减少了计算资源的空闲等待时间。
而 EPLB(专家并行负载均衡器)则像是一个智能工作调度系统。在拥有多个“专家”的 AI 模型中,不同专家可能工作量不同,导致某些计算单元特别忙,而其他单元却相对空闲。EPLB 能够聪明地分析每个专家的工作量,并通过复制繁忙的专家并合理分配,确保所有计算资源都被充分利用,不会出现“有的忙得不可开交,有的无所事事”的情况。
这两项技术共同为 DeepSeek-V3
模型提供性能优化,使其能够更高效地利用计算资源,降低训练和推理的成本。

5. 数据处理高速引擎:3FS & Smallpond
Fire-Flyer File System:https://github.com/deepseek-ai/3FS smallpond:https://github.com/deepseek-ai/smallpond
想象一下,你需要在一个图书馆中快速找到一本特定的书,而这个图书馆有着数百万本书籍。传统方法可能需要很长时间,但如果有一个超高效的图书管理系统,可以在眨眼间帮你定位并取出任何一本书,这就是 3FS(Fire-Flyer 文件系统)的工作方式。
3FS 是 DeepSeek 开发的高性能分布式文件系统,专为 AI 训练和推理工作负载设计。它能够充分利用现代 SSD 存储和 RDMA 网络的带宽,提供令人惊叹的数据访问速度:在一个由180个节点组成的集群中,它能达到每秒6.6太字节的聚合读取吞吐量!这相当于在1秒内读取超过1,300张 DVD 的内容。
与 3FS 配套的 Smallpond 是一个轻量级数据处理框架,它让研究人员和工程师能够轻松处理海量数据。无需复杂的设置或长时间运行的服务,Smallpond 提供了简单直观的接口,可扩展到处理 PB 级别的数据集。
这两个工具共同为 DeepSeek-V3
模型提供数据基础设施支持,从训练数据预处理、数据集加载、检查点保存/加载,到推理过程中的向量搜索和缓存查找,都能以极高的效率完成,加速模型的开发和部署。

我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。
相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。
欢迎关注“AI信息Gap”,用AI为你的未来加速。
(文:AI信息Gap)