580TFLOPS 归档 - 每时AI

“源神”DeepSeek！突破H800性能上限，FlashMLA重磅开源，算力成本还能降

2025年2月24日12时作者量子位

DeepSeek开源FlashMLA第一天，H800 GPU计算性能提升至3000GB/s、580TFLOPS。网友称赞工程团队实现每FLOP的突破。

2025年2月24日12时作者新智元

DeepSeek发布FlashMLA开源库，支持英伟达Hopper GPU。FlashMLA针对变长序列进行优化，显著提高推理速度和性能。

2025年2月24日12时作者 AIGC开放社区

专注AIGC领域的专业社区分享了DeepSeek开源的FlashMLA内核，该内核针对Hopper GPU进行了优化，实现了3000 GB/s内存带宽和580 TFLOPS计算性能，支持BF16并采用分页KV缓存技术。