冗余问题归档

更多thinking≠更好结果，精准thinking可砍掉一半长度

MLNLP社区是国内外知名的机器学习与自然语言处理社区。该文章讨论了大模型推理的冗长问题，并提出了一种名为LC-R1的方法来优化模型长度压缩，显著减少无效思考，提高效率。

2025年6月16日16时作者量子位

R-KV团队发布了一种新的高效压缩方法，可以显著减少大模型推理时的冗余信息。该方法通过实时对token进行排序和重要性评估来保留关键且多样化的信息，并在计算开销适中的情况下实现了更高的准确率和吞吐量。

2025年3月18日23时作者量子位

一半
都是“重复劳动”！
来自上海AI Lab、上海交大以及浙江大学最新研究显示：当下流行的多模态大