刚刚!DeepSeek开源FlashMLA,推理加速核心技术
DeepSeek本周开源了一款用于Hopper GPU的高效MLA解码内核FlashMLA,主要用于减少推理过程中的KV Cache成本。该项目上线45分钟后收获超过400星,并且得到了广泛好评。
DeepSeek本周开源了一款用于Hopper GPU的高效MLA解码内核FlashMLA,主要用于减少推理过程中的KV Cache成本。该项目上线45分钟后收获超过400星,并且得到了广泛好评。
DeepSeek发布FlashMLA开源库,支持英伟达Hopper GPU。FlashMLA针对变长序列进行优化,显著提高推理速度和性能。