CMU等提出MagicPIG!把注意力计算丢给CPU,大模型解码吞吐量提升4.99倍 上午8时 2024/12/30 作者 PaperWeekly ©作者 | Zhuoming Chen 单位 | 卡耐基梅隆大学 CPU+GPU,模型 KV 缓存压
把注意力计算丢给CPU,大模型解码吞吐量提高1.76~4.99倍 下午2时 2024/12/27 作者 量子位 CMU、华盛顿大学及Meta AI的研究提出MagicPIG,通过CPU上的LSH采样技术缓解GPU内存限制,显著提高LLM解码吞吐量和下游准确率,有望降低模型部署成本。