微软推出深度视频探索智能体,登顶多个长视频理解基准
论文提出 Deep Video Discovery (DVD),通过将长视频分割成多粒度片段并利用LLM推理能力自主规划工具获取信息来回答问题。在最新的推理模型OpenAI o3帮助下,DVI以74.2%准确率超越现有工作,在LVBench上大幅领先。
论文提出 Deep Video Discovery (DVD),通过将长视频分割成多粒度片段并利用LLM推理能力自主规划工具获取信息来回答问题。在最新的推理模型OpenAI o3帮助下,DVI以74.2%准确率超越现有工作,在LVBench上大幅领先。
2025年3月15日北京下雪。文章介绍了视频多模态RAG记忆增强检索和GDELT事件知识图谱构建及与RAG效果评估,讨论了不同方法的优缺点及其在问答任务中的应用。
阿里千问家族迎来了新的旗舰级成员Qwen2.5-VL,重点提升视觉理解、智能体能力和长视频理解能力。亮点包括精准图像识别、智能交互与任务完成、长时间视频内容理解和结构化数据输出等。