CMU等提出MagicPIG!把注意力计算丢给CPU,大模型解码吞吐量提升4.99倍 上午8时 2024/12/30 作者 PaperWeekly ©作者 | Zhuoming Chen 单位 | 卡耐基梅隆大学 CPU+GPU,模型 KV 缓存压