视频推理界的“福尔摩斯测试”:所有大模型,统统不及格 论文代码开源

腾讯ARC Lab和香港城市大学推出的新Benchmark Video-Holmes,通过复杂视频推理任务测试大模型能力。结果显示所有主流大模型在SR、IMC等指标上均不及格。Video-Holmes规避了现有基准的简单问题限制,强调多线索信息的整合与分析能力。

豆包可以跟你打视频了,陪我看《甄嬛传》还挺懂!难倒一众AI的“看时钟”也没难倒它

国产AI豆包成功攻克了看时钟这一大难题,并新增视频通话和联网搜索功能,能够实时报准时间、识别视频内容并提供详细信息,还支持字幕查看。实测显示其在教育、娱乐等方面表现出色,背后的技术优势包括强大的视觉理解能力和理解推理能力等。

前端程序员请注意!首个截图就能生成现代前端代码的AI来了 已开源

首个面向现代前端代码生成的多模态大模型Flame开源,能够自动生成符合现代前端开发规范和动态交互性的高质量代码。通过数据合成方法解决数据稀缺问题,Flame展示了与顶级模型如GPT-4o相比在代码生成方面的显著优势。