DeepSeek首日开源FlashMLA,H800的推理性能提升2-3倍! 下午4时 2025/02/24 作者 AI工程化 首个开源代码库FlashMLA针对英伟达Hopper架构GPU优化,支持BF16数据类型和分页KV缓存,提供高性能计算与内存吞吐,在内存限制配置下推理性能提升2-3倍,计算限制配置下提升约2倍。