视频推理界的“福尔摩斯测试”:所有大模型,统统不及格 论文代码开源

腾讯ARC Lab和香港城市大学推出的新Benchmark Video-Holmes,通过复杂视频推理任务测试大模型能力。结果显示所有主流大模型在SR、IMC等指标上均不及格。Video-Holmes规避了现有基准的简单问题限制,强调多线索信息的整合与分析能力。

速递|网络安全Horizon3.ai进行新一轮1亿美元融资,估值或超7.5亿美元,ARR达3000万美元

Horizon3.ai,一家提供自主渗透测试等工具的网络安全初创公司,计划融资1亿美元,估值超过7.5亿美元。该公司已锁定至少7300万美元融资,并由NEA领投。

速递|AI办公Context获1100万美元融资,估值7000万美元,打造能“逻辑推演”数据的AI办公

Context是一家开发人工智能办公套件的初创公司,宣布完成1100万美元种子轮融资。创始人Joseph Semrai希望利用AI的强大能力来改善现有数字办公套件的表现。

速递|AI会计系统Rillet获红杉领投2500万美金,AI总账助力企业月结提速至小时级

Rillet 完成 2500 万美元 A 轮融资,红杉资本领投。该公司利用机器学习和 AI 实现会计报告自动化,能在数小时内生成核心财务报表。其软件帮助中型企业在短时间内完成月度或季度结账,显著减少了对 NetSuite 的依赖。

成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力

本文提出ZeroSearch框架,无需真实搜索引擎即可激活大语言模型搜索能力。通过轻量级监督微调将LM转为检索模块,并采用课程学习逐步降低文档质量来激发推理能力,显著降低训练成本和提高性能。