港大&百度VideoRAG:极长上下文视频理解的RAG框架

VideoRAG:一种专门用于处理和理解极长上下文视频的检索增强生成框架。
一项案例研究展示了VideoRAG对OpenAI为期12天的教育系列中关于“graders”查询的回应,体现了其视频检索能力和知识整合能力

VideoRAG 引入了一种新颖的双通道架构,该架构协同结合了图形驱动的文本知识基础,用于对跨视频语义关系进行建模,以及分层多模态上下文编码以保留时空视觉模式,通过动态构建的知识图实现无限长度的视频理解,在多视频上下文中保持语义一致性,同时通过自适应多模态融合机制优化检索效率。

💻高效的超长上下文视频处理

  • 利用单个 NVIDIA RTX 3090 GPU (24G) 来理解数百小时的视频内容

🗃️结构化视频知识索引

  • 多模态知识索引框架将数百小时的视频提炼成简洁、结构化的知识图谱

🔍多模式检索,提供全面响应

  • 多模态检索范式将文本语义和视觉内容结合起来,以识别最相关的视频,从而获得全面的响应

📚新设立的 LongerVideos 基准

  • 新建立的 LongerVideos 基准涵盖了 160 多个视频,总计 134 多个小时,涵盖讲座、纪录片和娱乐 

通过在提出的LongerVideos基准测试(涵盖讲座、纪录片和娱乐等类别,包含160多个视频,总时长超过134小时)上的全面实证评估,VideoRAG相较于现有的RAG替代方案(NaiveRAG、GraphRAG-l、GraphRAG-g、LightRAG )和长视频理解方法展现出显著的性能优势。

https://arxiv.org/pdf/2502.01549VideoRAG: Retrieval-Augmented Generation with Extreme Long-Context Videoshttps://github.com/HKUDS/VideoRAG

(文:PaperAgent)

欢迎分享

发表评论