Washington University 归档

把注意力计算丢给CPU，大模型解码吞吐量提高1.76~4.99倍

2024年12月27日14时作者量子位

CMU、华盛顿大学及Meta AI的研究提出MagicPIG，通过CPU上的LSH采样技术缓解GPU内存限制，显著提高LLM解码吞吐量和下游准确率，有望降低模型部署成本。