DeepSeek开源周首发,H800算力狂飙,网友:提升GPU效率可以,别毁了我的Nvidia股票!

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

今天开始,我们进入了DeepSeek开源周。

第一个开源项目是FlashMLA。这个项目在短时间内就引起了广泛关注,几个小时内就收获了超过3.5K个Star,而且还在不断增加。

网友:DeepSeek正在向NVIDIA发起挑战。

他们原来API价格就很低,让LLM们变得更便宜,现在又提高了GPU的效率。

提升GPU效率可以,别毁了我的Nvidia股票。。。


FlashMLA有什么特别之处?

这是为Hopper GPU开发的高效MLA解码内核,专门优化可变长度序列。自V2起,MLA架构让DeepSeek在降低成本的同时,保持与顶尖模型的计算和推理性能。

首先是性能优化。专门为H800这样的Hopper GPU设计,内存带宽能到3000 GB/s,计算能力达到580 TFLOPS。简单说,就是让AI模型跑得更快。
其次是灵活性。能处理不同长度的文本,比如聊天、翻译这些场景,文字长短不一也不怕。
内存管理也很聪明。用了64大小的分页KV缓存,让大模型运行更省内存,效率更高。
精度方面选择了BF16。这个格式在保证准确度的同时,能节省内存,让计的模型。借鉴了FlashAttention 2&3的思路,用闪存来扩展GPU内存,模型size能做到比显存大一倍,速度还能提升不少。

网友:如何判断这些家伙的技术实力?看看这个代码就知道了。

这段代码展示了如何优化计算:

这种方法让编译器能够使用更高效的指令。

不过,有人指出,这个技巧在Flash Attention中已经使用过。DeepSeek在代码开头也提到这是从Flash Attention的代码库中改编而来的。

尽管如此,编写内核代码时考虑编译器指令集的能力,依然被认为是“优秀”的表现。对于那些指责DeepSeek抄袭的人,似乎应该闭嘴了。


还有,MLA是DeepSeek的核心架构,旨在提高Transformer模型的推理效率,同时减少内存使用。通过低秩联合压缩技术,MLA将多头注意力中的键和值矩阵压缩到低维空间,显著降低KV缓存的存储需求。
简单说,把模型中的键值矩阵压缩到更小的空间。这样处理长文本时,不用存那么多数据,只保留最重要的信息就够了。
效果怎么样? 在V2版本中,显存占用降至过去MHA架构的5%-13%,推理成本仅为Llama 370B的1/7。
能跑更大——7。V3版本的效果更好,这也是为什么大家都在关注DeepSeek。

FlashMLA能做什么?
可以想到的用途:
处理长文本、用在实时场景,像聊天机器人和翻译、让AI在资源有限的设备上也能跑起来。
FlashMLA开源后。后续可以和vLLM、Hugging Face这些常用工具结合,让开源AI模型跑得更快。
它有什么实际好处?
  • 同样的GPU能处理更多任务
  • 推理成本降低了
  • AI公司和用户都能省钱
  • 小公司和开发者也能用上高效的AI技术

最后,FlashMLA是个开源项目。已经在实际环境中使用过,很稳定。可以直接用,也可以自己改进。


末,本周还有一些东西值得期待 —— GPT4.5、Claude4 。

网友:Deepseek 开源周 之 第五天 


以下,本期主题AI画作:
UP:参考自开篇表情包
🌟 知音难求,自我修炼亦艰,抓住前沿技术的机遇,与我们一起成为创新的超级个体(把握AIGC时代的个人力量)。
参考链接:
[1] https://github.com/deepseek-ai/FlashMLA

[2] https://x.com/deepseek_ai/status/1893836827574030466

点这里👇关注我,记得标星哦~

(文:AI进修生)

欢迎分享

发表评论