10% KV Cache实现无损数学推理!这个开源方法解决推理大模型「记忆过载」难题 2025-06-16 作者 量子位 R-KV团队发布了一种新的高效压缩方法,可以显著减少大模型推理时的冗余信息。该方法通过实时对token进行排序和重要性评估来保留关键且多样化的信息,并在计算开销适中的情况下实现了更高的准确率和吞吐量。