陈键飞归档 - 每时AI

清华SageAttention3，FP4量化5倍加速！且首次支持8比特训练

2025年6月19日8时作者机器之心

清华大学陈键飞团队提出SageAttention3，实现了5倍于FlashAttention的推理加速。此模型在多种视频和图像生成等大模型上保持了端到端的精度表现，并首次提出了可训练的8比特注意力用于大模型的训练加速。

2025年4月9日16时作者机器之心

ICLR 2025 论文分享会将于4月20日在北京举办，主题包括训练推理、多模态和Agent等。顶尖专家李崇轩将介绍扩散模型在大语言模型范式中的应用，陈键飞则介绍高效训练推理的理论及算法。

2025年3月28日16时作者 PaperWeekly

清华大学陈键飞团队提出的SpargeAttn无需训练且通用，实现了任意模型在4-32K上下文长度上的4-7倍推理加速，并保持了端到端精度。该方法通过选择性地压缩Q, K矩阵并预测P矩阵来节省计算，同时使用稀疏在线softmax算法进一步优化。

2025年3月27日16时作者机器之心

清华大学陈键飞团队提出SpargeAttn，无需训练且对任意模型通用的稀疏Attention，实现推理加速4-7倍。