模型崩溃自救指南:5行代码实现TTA鲁棒性飞跃,天大×腾讯开源COME方案

文章介绍了测试时适应(TTA)方法中的熵最小化(EM),并指出其存在的过度自信和模型崩溃问题。COME通过显式不确定性建模和自适应熵优化解决了这些问题,显著提升了模型在各种复杂场景下的预测能力。

中文网页检索挑战上线!GPT-4o准确率仅6.2%,这份新基准打脸所有大模型

港科大联合发布的新基准测试集BrowseComp-ZH显示,20多个主流大模型在中文网页检索任务中的准确率普遍低于10%,OpenAI的DeepResearch仅得42.9%。研究强调当前主流模型还需提升多轮搜索和信息整合能力。

WWW 2025 数据洪流→数据精炼:北理工等提出高效文本行人检索新范式

北京理工大学、澳门大学与新加坡国立大学联合提出Filtering-WoRA范式,实现无需全量训练的高效行人检索。该方法通过两阶段数据过滤和Weighted Low-Rank Adaptation(WoRA)显著减少模型参数并提高计算速度。

推测性思维链SCoT:小模型“模仿”大模型,最高提速2.9倍,准确率几乎不降

论文提出SCoT(推测性思维链),通过小型模型快速生成多个解题草稿,大型模型审核并选择最优解或重新编写。这种协作式推理方法能显著提升速度和准确率,同时降低成本、增加灵活性,并且代码开源便于应用。

3B逆袭7B巨头!Video-XL-Pro登顶长视频理解SOTA,单卡万帧准确率超98%

上海交通大学、北京智源研究院和特伦托大学的研究团队推出了一种新的超长视频理解大模型Video-XL-Pro,该模型通过创新的重构式令牌压缩技术实现了近一万帧视频的单卡处理,并在多个基准测试中超越了此前发布的大型模型。