DeepSeek开源放大招:FlashMLA让H800算力狂飙!曝光低成本秘笈
DeepSeek发布FlashMLA开源库,支持英伟达Hopper GPU。FlashMLA针对变长序列进行优化,显著提高推理速度和性能。
DeepSeek发布FlashMLA开源库,支持英伟达Hopper GPU。FlashMLA针对变长序列进行优化,显著提高推理速度和性能。
DeepSeek推出FlashMLA开源项目,专为Hopper架构GPU设计的超高效MLA解码内核现已正式开源。它优化了变长序列场景下的效率,并已在生产环境中使用。亮点包括BF16精度支持、Paged KV Cache以及极高的性能表现。
专注AIGC领域的专业社区分享了DeepSeek开源的FlashMLA内核,该内核针对Hopper GPU进行了优化,实现了3000 GB/s内存带宽和580 TFLOPS计算性能,支持BF16并采用分页KV缓存技术。