更多thinking≠更好结果,精准thinking可砍掉一半长度
MLNLP社区是国内外知名的机器学习与自然语言处理社区。该文章讨论了大模型推理的冗长问题,并提出了一种名为LC-R1的方法来优化模型长度压缩,显著减少无效思考,提高效率。
MLNLP社区是国内外知名的机器学习与自然语言处理社区。该文章讨论了大模型推理的冗长问题,并提出了一种名为LC-R1的方法来优化模型长度压缩,显著减少无效思考,提高效率。
R-KV团队发布了一种新的高效压缩方法,可以显著减少大模型推理时的冗余信息。该方法通过实时对token进行排序和重要性评估来保留关键且多样化的信息,并在计算开销适中的情况下实现了更高的准确率和吞吐量。