视频推理界的“福尔摩斯测试”:所有大模型,统统不及格 论文代码开源
腾讯ARC Lab和香港城市大学推出的新Benchmark Video-Holmes,通过复杂视频推理任务测试大模型能力。结果显示所有主流大模型在SR、IMC等指标上均不及格。Video-Holmes规避了现有基准的简单问题限制,强调多线索信息的整合与分析能力。
腾讯ARC Lab和香港城市大学推出的新Benchmark Video-Holmes,通过复杂视频推理任务测试大模型能力。结果显示所有主流大模型在SR、IMC等指标上均不及格。Video-Holmes规避了现有基准的简单问题限制,强调多线索信息的整合与分析能力。
国产AI豆包成功攻克了看时钟这一大难题,并新增视频通话和联网搜索功能,能够实时报准时间、识别视频内容并提供详细信息,还支持字幕查看。实测显示其在教育、娱乐等方面表现出色,背后的技术优势包括强大的视觉理解能力和理解推理能力等。
ChatGPT新增深度研究功能可直接连接GitHub,用户可通过深度研究获取GitHub代码库信息,并支持通过设置调整访问范围。
首个面向现代前端代码生成的多模态大模型Flame开源,能够自动生成符合现代前端开发规范和动态交互性的高质量代码。通过数据合成方法解决数据稀缺问题,Flame展示了与顶级模型如GPT-4o相比在代码生成方面的显著优势。
DeepSeek官方推荐部署DeepSeek-R1的四项内容:不使用系统提示词,把Temperature设置为0.6,提供缓解模型绕过思维的指南,并引入新的官方提示搜索和文件上传功能。
钉钉全面接入DeepSeek系列模型,用户可以直接选择R1、V3等三种模型创建AI助理,并可借助宜搭平台调用DeepSeek能力。这是阿里系大模型生态中的一个开放态度展示。
文章介绍了百度文心一言的大模型RAG技术,通过检索增强生成方式让AI在作答时更准确、丰富且有态度。实测显示其能精准回答复杂问题,并保持客观性。文章强调了RAG技术对大模型输出结果的影响及其重要性。
DeepSeek V3成为大模型圈新顶流,训练成本仅为557.6万美元。然而,其生成内容与ChatGPT相似的问题引发热议。尽管有人怀疑DeepSeek V3是否使用了ChatGPT的数据进行训练,但目前尚未有确凿证据。