量子位归档 - 每时AI

视频推理界的“福尔摩斯测试”：所有大模型，统统不及格论文代码开源

下午4时 2025/05/29 作者量子位

腾讯ARC Lab和香港城市大学推出的新Benchmark Video-Holmes，通过复杂视频推理任务测试大模型能力。结果显示所有主流大模型在SR、IMC等指标上均不及格。Video-Holmes规避了现有基准的简单问题限制，强调多线索信息的整合与分析能力。

下午4时 2025/05/29 作者量子位

！
现在，它具备
3D空间感
知
和
实时物体
追
踪
能力，可以自主执行更复杂的工业任务。
请看A

下午11时 2025/05/27 作者量子位

发布了带有
定制大模型和全彩显示
的AI眼镜——X3 Pro。
雷鸟X3 Pro搭载了4nm高通骁龙

下午11时 2025/05/26 作者量子位

国产AI豆包成功攻克了看时钟这一大难题，并新增视频通话和联网搜索功能，能够实时报准时间、识别视频内容并提供详细信息，还支持字幕查看。实测显示其在教育、娱乐等方面表现出色，背后的技术优势包括强大的视觉理解能力和理解推理能力等。

下午4时 2025/05/25 作者量子位

有了进展。
MIT科学家威廉姆斯一次偶然发现：证明内存比大家认为的更强大。在所有可以想象的计算中，

上午11时 2025/05/23 作者量子位

于迎来了它的重大版本升级——
Claude 4来了！
此次主要发布的有两个模型：
Claude Op

下午4时 2025/05/21 作者量子位

谷歌发布最强视频生成模型Veo 3，能从画面到对白原生直接生成，并且用户可通过自然语言描述角色、场景和指定对白与语气。

上午11时 2025/05/18 作者量子位

样？！
这是研究员对AlphaEvolve的最新评价，就在不久之前，谷歌DeepMind联合陶哲轩等

下午11时 2025/05/14 作者量子位

OpenAI CEO奥特曼在’AI Ascent 2025’活动中透露，未来AI模型将覆盖用户一生的数据，实现个性化推理，并设想开发核心AI订阅服务。他称这为柏拉图式理想，并提到目前处于‘PPT’阶段。

上午11时 2025/05/13 作者量子位

一夜之间泄露的Claude系统提示词包含16739个字，详细定义了模型行为、工具使用和引用格式。新范式通过模拟人类学习过程为LLM提供“记忆”功能，使其具备自主反思用户问题的能力。