Two-Level Scaling归档

清华SageAttention3，FP4量化5倍加速！且首次支持8比特训练

2025年6月19日8时作者机器之心

清华大学陈键飞团队提出SageAttention3，实现了5倍于FlashAttention的推理加速。此模型在多种视频和图像生成等大模型上保持了端到端的精度表现，并首次提出了可训练的8比特注意力用于大模型的训练加速。