大模型压缩方法归档

10% KV Cache实现无损数学推理！这个开源方法解决推理大模型「记忆过载」难题

2025-06-16 作者量子位

R-KV团队发布了一种新的高效压缩方法，可以显著减少大模型推理时的冗余信息。该方法通过实时对token进行排序和重要性评估来保留关键且多样化的信息，并在计算开销适中的情况下实现了更高的准确率和吞吐量。