900TOPS 归档 - 每时AI

7倍推理加速！清华团队发布稀疏Attention，无需训练加速一切模型

2025年3月28日16时作者 PaperWeekly

清华大学陈键飞团队提出的SpargeAttn无需训练且通用，实现了任意模型在4-32K上下文长度上的4-7倍推理加速，并保持了端到端精度。该方法通过选择性地压缩Q, K矩阵并预测P矩阵来节省计算，同时使用稀疏在线softmax算法进一步优化。

2025年3月27日16时作者机器之心

清华大学陈键飞团队提出SpargeAttn，无需训练且对任意模型通用的稀疏Attention，实现推理加速4-7倍。