北大发布学术搜索评测ScholarSearch:难倒一众DeepResearch的“开卷考试”

北京大学DS-Lab发布ScholarSearch数据集,评估LLMs在学术研究中的信息检索能力。结果显示现有模型普遍表现不佳,仅凭推理无法解决复杂问题,需结合搜索功能以提高准确率。

大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背  MathFusion

MathFusion团队提出了一种新的方法,通过指令融合增强大语言模型解决数学问题的能力。仅使用45K的合成指令,在多个基准测试中平均准确率提升了18.0个百分点。MathFusion通过顺序、并列和条件三种融合策略将不同数学问题巧妙结合生成新问题,显著提升模型性能与数据效率,并在in-domain和out-of-domain基准测试中均表现出优越表现。

10% KV Cache实现无损数学推理!这个开源方法解决推理大模型「记忆过载」难题

R-KV团队发布了一种新的高效压缩方法,可以显著减少大模型推理时的冗余信息。该方法通过实时对token进行排序和重要性评估来保留关键且多样化的信息,并在计算开销适中的情况下实现了更高的准确率和吞吐量。

中科院提出DEER:让Reasoning提前退出,推理提速50% 准确率涨10%

MLNLP是国内外知名的机器学习与自然语言处理社区。旨在促进学术界、产业界和爱好者的交流合作。近期提出DEER技术来解决大型语言模型冗长推理的问题,通过监测思考转折词和置信度评估实现。