FlashMLA归档 - 每时AI

SGLang MLA 实现解析

下午2时 2025/03/10 作者 GiantPandaCV

读
，这里简单回顾一下核心idea。之所以在 MLA 中使用DP的方式是因为 MLA 在存储 KV

下午4时 2025/03/01 作者路过银河AI

FlashMLA发布首日即引发广泛关注，通过智能调度大幅提升GPU利用率；DeepEP优化MoE模型通信效率；DeepGEMM实现高效FP8矩阵乘法，性能接近专家调优库；DualPipe+EPLB双剑合璧提升并行计算效率至30%以上；3FS文件系统进一步加速AI数据访问速度。

下午2时 2025/03/01 作者 AI信息Gap

s://github.com/deepseek-ai/FlashMLA
当我们使用 ChatGPT

下午2时 2025/02/28 作者 AI先锋官

，将陆续公布5个开源项目。
从周一（2月24日）到今天（2月28日），DeepSeek“开源周”也迎

下午4时 2025/02/27 作者机器之心

DeepSeek 发布了DualPipe和EPLB两个新工具以及训练和推理框架的分析数据，旨在帮助社区更好地理解通信-计算重叠策略和底层实现细节。

上午8时 2025/02/26 作者 NLP工程化

FlashMLA是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核，已在多个配置下实现高吞吐量和峰值性能。

下午4时 2025/02/25 作者机器之心

DeepSeek 开源首个用于MoE模型训练和推理的EP通信库 DeepEP，优化高效通信和并行处理，支持FP8精度，并提供灵活资源调度。