


VideoRAG 引入了一种新颖的双通道架构,该架构协同结合了图形驱动的文本知识基础,用于对跨视频语义关系进行建模,以及分层多模态上下文编码以保留时空视觉模式,通过动态构建的知识图实现无限长度的视频理解,在多视频上下文中保持语义一致性,同时通过自适应多模态融合机制优化检索效率。
💻高效的超长上下文视频处理
-
利用单个 NVIDIA RTX 3090 GPU (24G) 来理解数百小时的视频内容
🗃️结构化视频知识索引
-
多模态知识索引框架将数百小时的视频提炼成简洁、结构化的知识图谱
🔍多模式检索,提供全面响应
-
多模态检索范式将文本语义和视觉内容结合起来,以识别最相关的视频,从而获得全面的响应
📚新设立的 LongerVideos 基准
-
新建立的 LongerVideos 基准涵盖了 160 多个视频,总计 134 多个小时,涵盖讲座、纪录片和娱乐
https://arxiv.org/pdf/2502.01549
VideoRAG: Retrieval-Augmented Generation with Extreme Long-Context Videos
https://github.com/HKUDS/VideoRAG
(文:PaperAgent)