DeepSeek开源周Day1，硬核发布...

DeepSeek的开源周（OpenSourceWeek）开始了，Day1开源了FlashMLA，不到一天直接冲上6.8k star~

DeepSeek分享了他们的FlashMLA——为Hopper GPU开发的高效MLA解码内核，针对变长序列进行了优化，目前已投入生产。

✅ 支持BF16

✅ 分页KV缓存（块大小64）

⚡ 在H800上，内存受限时速度可达3000 GB/s，计算受限时速度可达580 TFLOPS

python setup.py install### 基准测试python tests/test_flash_mla.py

在H800 SXM5上，使用CUDA 12.6，内存受限配置下可达到3000 GB/s，计算受限配置下可达到580 TFLOPS。

from flash_mla import get_mla_metadata, flash_mla_with_kvcache
tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv)
for i in range(num_layers):    ...    o_i, lse_i = flash_mla_with_kvcache(        q_i, kvcache_i, block_table, cache_seqlens, dv,        tile_scheduler_metadata, num_splits, causal=True,    )    ...

https://github.com/deepseek-ai/FlashMLA

（文：PaperAgent）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复