DeepSeek“开源周”Day1:让英伟达H800性能翻两倍

作者沐风

来源AI先锋官

2月24日,DeepSeek的“开源周”,开源了他们第一天的项目FlashMLA。


开源地址:https://github.com/deepseek-ai/FlashMLA

在DeepSeek整个技术路线中,MLA(多头潜在注意力机制)是DeepSeek已经发布的V2、V3两款模型中,最为核心的技术之一。

其可以显著减少大模型训练和推理过程中的内存占用。

此前,中国工程院院士、清华大学计算机系教授郑纬民曾提及:“DeepSeek自研的MLA架构为其自身的模型训练成本下降,起到了关键作用。”

他指出,“MLA通过改造注意力算子压缩了KV Cache大小,实现了在同样容量下可以存储更多的KV Cache,该架构和DeepSeek-V3模型中FFN 层的改造相配合,实现了一个非常大的稀疏MoE 层,成为DeepSeek训练成本低最关键的原因。”

而FlashMLA则是针对Hopper GPU开发的高效MLA解码内核,专为处理可变长度序列而设计,目前已投入了生产。

Hopper GPU是指基于英伟达Hopper架构研发的H系列GPU产品。

目前,英伟达该系列芯片已经发布H100、H800和H20等多款芯片。

据DeepSeek方面介绍,在基准测试性能表现上,FlashMLA可以使得H800达到3000GB/s内存,实现580TFLOPS(每秒浮点运算次数)计算性能。


可以说,DeepSeek真的把自己最牛*的东西开源出来了。

公开资料显示,根据美国出口管制规定,H800的带宽上限被设定为600 GB/s,相比一些旗舰产品有所降低。

这意味着,使用FlashMLA优化后,H800的内存带宽利用率有望进一步提高甚至突破H800 GPU理论上限,在内存访问上达到极致,能让开发群体充分“压榨”英伟达H系列芯片能力,以更少的芯片实现更强的模型性能,最大化GPU价值。

对于整个AI生态来说,这是一件天大的好事。

妥妥的GPU性能红利。

虽然FlashMLA是一个针对Hopper GPU的优化代码库,但对于国产GPU而言,此次开源也有利好。

对于国产GPU而言,现在可以通过FlashMLA提供的优化思路和方法论,尝试让国产卡大幅提升性能,即使架构不同,后面国产卡的推理性能提升将是顺理成章的事儿。

结合此前DeepSeek发布的论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。

如果将FlashMLA视为针对推理解码做的“终极性能提升”,那么Native Sparse Attention就是对训练和推理做更全面的“稀疏化改革”。

两者结合到一起,DeepSeek的意思就很明显,“无论训练还是推理,我都要把硬件榨干。”

目前,FlashMLA在Github上已经达到了5.9kStar。


而且这还只是第一天开源的项目。

可想而知,在后面的四天里,DeepSeek还会给大家带来多牛*的惊喜。

 

(文:AI先锋官)

欢迎分享

发表评论