DeepSeek开源周Day 1: FlashMLA——大家省,才是真的省
DeepSeek发布首个开源项目FlashMLA,专为英伟达Hopper GPU设计,实现了高效MLA解码内核,提供3000GB/s内存带宽和580TFLOPS计算性能,已在GitHub上吸引5000+星。
DeepSeek发布首个开源项目FlashMLA,专为英伟达Hopper GPU设计,实现了高效MLA解码内核,提供3000GB/s内存带宽和580TFLOPS计算性能,已在GitHub上吸引5000+星。
DeepSeek推出FlashMLA开源项目,专为Hopper架构GPU设计的超高效MLA解码内核现已正式开源。它优化了变长序列场景下的效率,并已在生产环境中使用。亮点包括BF16精度支持、Paged KV Cache以及极高的性能表现。