MagicPIG归档 - 每时AI

CMU等提出MagicPIG！把注意力计算丢给CPU，大模型解码吞吐量提升4.99倍

上午8时 2024/12/30 作者 PaperWeekly

©作者 |
Zhuoming Chen
单位 |
卡耐基梅隆大学
CPU+GPU，模型 KV 缓存压

下午2时 2024/12/27 作者量子位

CMU、华盛顿大学及Meta AI的研究提出MagicPIG，通过CPU上的LSH采样技术缓解GPU内存限制，显著提高LLM解码吞吐量和下游准确率，有望降低模型部署成本。