视频推理界的“福尔摩斯测试”:所有大模型,统统不及格 论文代码开源
腾讯ARC Lab和香港城市大学推出的新Benchmark Video-Holmes,通过复杂视频推理任务测试大模型能力。结果显示所有主流大模型在SR、IMC等指标上均不及格。Video-Holmes规避了现有基准的简单问题限制,强调多线索信息的整合与分析能力。
腾讯ARC Lab和香港城市大学推出的新Benchmark Video-Holmes,通过复杂视频推理任务测试大模型能力。结果显示所有主流大模型在SR、IMC等指标上均不及格。Video-Holmes规避了现有基准的简单问题限制,强调多线索信息的整合与分析能力。
伟、郭京翔、胡越、陈浩楠、陈俊廷、吴睿海。通讯作者为新加坡国立大学计算机学院助理教授邵林,研究方向为
Horizon3.ai,一家提供自主渗透测试等工具的网络安全初创公司,计划融资1亿美元,估值超过7.5亿美元。该公司已锁定至少7300万美元融资,并由NEA领投。
英伟达发布2026财年第一季度财报,营收达到历史新高441亿美元,同比增长69%。主要得益于AI推理大爆发和马斯克合作扩张等新增长点。尽管面临美国出口限制影响,预计下一季度营收将达到450亿美元。
Context是一家开发人工智能办公套件的初创公司,宣布完成1100万美元种子轮融资。创始人Joseph Semrai希望利用AI的强大能力来改善现有数字办公套件的表现。
Rillet 完成 2500 万美元 A 轮融资,红杉资本领投。该公司利用机器学习和 AI 实现会计报告自动化,能在数小时内生成核心财务报表。其软件帮助中型企业在短时间内完成月度或季度结账,显著减少了对 NetSuite 的依赖。
本文提出ZeroSearch框架,无需真实搜索引擎即可激活大语言模型搜索能力。通过轻量级监督微调将LM转为检索模块,并采用课程学习逐步降低文档质量来激发推理能力,显著降低训练成本和提高性能。