刚刚!DeepSeek开源FlashMLA,推理加速核心技术
DeepSeek本周开源了一款用于Hopper GPU的高效MLA解码内核FlashMLA,主要用于减少推理过程中的KV Cache成本。该项目上线45分钟后收获超过400星,并且得到了广泛好评。
DeepSeek本周开源了一款用于Hopper GPU的高效MLA解码内核FlashMLA,主要用于减少推理过程中的KV Cache成本。该项目上线45分钟后收获超过400星,并且得到了广泛好评。
DeepSeek开源FlashMLA第一天,H800 GPU计算性能提升至3000GB/s、580TFLOPS。网友称赞工程团队实现每FLOP的突破。
DeepSeek发布FlashMLA开源库,支持英伟达Hopper GPU。FlashMLA针对变长序列进行优化,显著提高推理速度和性能。
专注AIGC领域的专业社区分享了DeepSeek开源的FlashMLA内核,该内核针对Hopper GPU进行了优化,实现了3000 GB/s内存带宽和580 TFLOPS计算性能,支持BF16并采用分页KV缓存技术。