视频推理界的“福尔摩斯测试”:所有大模型,统统不及格 论文代码开源

腾讯ARC Lab和香港城市大学推出的新Benchmark Video-Holmes,通过复杂视频推理任务测试大模型能力。结果显示所有主流大模型在SR、IMC等指标上均不及格。Video-Holmes规避了现有基准的简单问题限制,强调多线索信息的整合与分析能力。

豆包可以跟你打视频了,陪我看《甄嬛传》还挺懂!难倒一众AI的“看时钟”也没难倒它

国产AI豆包成功攻克了看时钟这一大难题,并新增视频通话和联网搜索功能,能够实时报准时间、识别视频内容并提供详细信息,还支持字幕查看。实测显示其在教育、娱乐等方面表现出色,背后的技术优势包括强大的视觉理解能力和理解推理能力等。

Claude1.7万字系统提示词全网刷屏!Karpathy锐评:LLM训练缺乏关键范式

一夜之间泄露的Claude系统提示词包含16739个字,详细定义了模型行为、工具使用和引用格式。新范式通过模拟人类学习过程为LLM提供“记忆”功能,使其具备自主反思用户问题的能力。