全日程揭晓!ICLR 2025论文分享会我们北京见
ICLR 2025 论文分享会将于4月20日在北京举办,主题包括训练推理、多模态和Agent等。顶尖专家李崇轩将介绍扩散模型在大语言模型范式中的应用,陈键飞则介绍高效训练推理的理论及算法。
ICLR 2025 论文分享会将于4月20日在北京举办,主题包括训练推理、多模态和Agent等。顶尖专家李崇轩将介绍扩散模型在大语言模型范式中的应用,陈键飞则介绍高效训练推理的理论及算法。
清华大学陈键飞团队提出的SpargeAttn无需训练且通用,实现了任意模型在4-32K上下文长度上的4-7倍推理加速,并保持了端到端精度。该方法通过选择性地压缩Q, K矩阵并预测P矩阵来节省计算,同时使用稀疏在线softmax算法进一步优化。