Hopper GPU 归档

MagiAttention：为超长文本和异构数据训练提供线性可扩展的分布式注意力机制

2025年4月24日8时作者 NLP工程化

MagiAttention 提供线性可扩展的分布式注意力机制，支持多种注意力掩码类型，性能与Flash-Attention 3相当，实现零冗余通信提升效率。

2025年2月26日8时作者 NLP工程化

FlashMLA是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核，已在多个配置下实现高吞吐量和峰值性能。

2025年2月25日16时作者 Founder Park

）和专家并行（EP）打造的高效通信库 — DeepEP。
就在半小时前，官方对此进行了发布，以下是由

2025年2月24日19时作者 AI先锋官

DeepSeek开源FlashMLA项目，显著提高H800 GPU内存访问性能。该优化方案对国产GPU也有潜在提升效应。

2025年2月24日16时作者 APPSO

今天正式推出DeepSeek开源周，FlashMLA在极短时间内收获超过3.5K Star。它是针对HopperGPU优化的高效MLA解码内核，支持变长序列处理。FlashMLA通过优化减轻了内存占用并加速计算过程。

2025年2月24日12时作者机器之心

DeepSeek开源FlashMLA项目，用于Hopper GPU的高效型MLA解码核。该项目上线45分钟即收获超过400星，并在内存绑定配置下实现高达3000GB/s的速度和580TFLOPS的计算上限。

2024年12月25日14时作者新智元

马斯克的xAI完成60亿美金C轮融资，估值达400亿美元。投资阵容豪华，包括英伟达、AMD等公司参与。资金将用于加速先进基础设施和突破性产品的交付。