CMU等提出MagicPIG!把注意力计算丢给CPU,大模型解码吞吐量提升4.99倍 2024年12月30日8时 作者 PaperWeekly ©作者 | Zhuoming Chen 单位 | 卡耐基梅隆大学 CPU+GPU,模型 KV 缓存压