2025-05-29 - 第5页共10页

视频推理界的“福尔摩斯测试”：所有大模型，统统不及格论文代码开源

下午4时 2025/05/29 作者量子位

腾讯ARC Lab和香港城市大学推出的新Benchmark Video-Holmes，通过复杂视频推理任务测试大模型能力。结果显示所有主流大模型在SR、IMC等指标上均不及格。Video-Holmes规避了现有基准的简单问题限制，强调多线索信息的整合与分析能力。

下午4时 2025/05/29 作者机器之心

伟、郭京翔、胡越、陈浩楠、陈俊廷、吴睿海。通讯作者为新加坡国立大学计算机学院助理教授邵林，研究方向为

下午4时 2025/05/29 作者新智元

EfficientLLM项目聚焦LLM效率，提出三轴分类法和六大指标，实验包揽全架构、多模态、微调技术，为研究人员提供清晰的导航图。

下午4时 2025/05/29 作者量子位

！
现在，它具备
3D空间感
知
和
实时物体
追
踪
能力，可以自主执行更复杂的工业任务。
请看A

下午4时 2025/05/29 作者 Z Potentials

Horizon3.ai，一家提供自主渗透测试等工具的网络安全初创公司，计划融资1亿美元，估值超过7.5亿美元。该公司已锁定至少7300万美元融资，并由NEA领投。

下午4时 2025/05/29 作者新智元

英伟达发布2026财年第一季度财报，营收达到历史新高441亿美元，同比增长69%。主要得益于AI推理大爆发和马斯克合作扩张等新增长点。尽管面临美国出口限制影响，预计下一季度营收将达到450亿美元。

下午4时 2025/05/29 作者 Z Potentials

Context是一家开发人工智能办公套件的初创公司，宣布完成1100万美元种子轮融资。创始人Joseph Semrai希望利用AI的强大能力来改善现有数字办公套件的表现。

下午4时 2025/05/29 作者 Z Potentials

Rillet 完成 2500 万美元 A 轮融资，红杉资本领投。该公司利用机器学习和 AI 实现会计报告自动化，能在数小时内生成核心财务报表。其软件帮助中型企业在短时间内完成月度或季度结账，显著减少了对 NetSuite 的依赖。

下午4时 2025/05/29 作者新智元

，刚刚涌进了你的电脑桌面？这个时代的PC流量，还是一片亟待掘金的蓝海。现在，这个月活5亿的巨大市场，

下午4时 2025/05/29 作者机器之心

本文提出ZeroSearch框架，无需真实搜索引擎即可激活大语言模型搜索能力。通过轻量级监督微调将LM转为检索模块，并采用课程学习逐步降低文档质量来激发推理能力，显著降低训练成本和提高性能。