

与此同时,我们注意到现有数据集仅聚焦于单张图片或单个文档的问答任务,缺乏在大规模文档集合情景下针对检索和复杂推理能力的系统性评估。
为弥补这一空白,我们提出了 ViDoSeek 数据集。该数据集专为视觉丰富文档的检索-推理-回答任务设计,旨在为大规模文档集合的检索和生成能力评估提供一个更具挑战性和实用性的基准。
ViDoSeek 的推出,不仅为 ViDoRAG 框架的验证和优化提供了有力支持,更为未来相关研究提供了一个高质量的基准,推动视觉文档问答领域的进一步发展。

ViDoSeek Benchmark:专注于大规模数据文档集合下的检索和复杂推理
为精准评测 RAG 在视觉文档处理上的性能,我们精心打造了 ViDoSeek 数据集。这并非传统意义上简单的图像问答或文档问答集合,而是一个专为大规模文档检索、复杂推理与精准问答设计的综合性评估。
在 ViDoSeek 中,每个查询都指向大型文档集合中的唯一答案,并配有明确的参考页面标注,涵盖了文本、图表、表格、布局等多种内容类型,完美模拟真实世界中多样化的文档场景。

这种设计不仅增加了数据集的挑战性,也为模型的推理能力提供了全方位的试炼场,从而对 RAG 系统的综合能力提出更高要求。这种对复杂文档结构和内容的深度把控,正是 ViDoSeek 的独特魅力所在,它为 RAG 系统提供了一个贴近实战的演练场,让模型在 “真刀真枪” 的考验中锤炼能力。

ViDoRAG:多智能体迭代推理,开启类人思考新范式
我们进一步提出了 ViDoRAG,一个针对视觉文档复杂推理的多智能体 RAG 框架。相比于传统的 RAG 框架,ViDoRAG 的核心在于其多模态混合检索策略和多智能体生成流程。这些特性使得 ViDoRAG 在处理视觉文档时如鱼得水,能够更加精准地检索、理解和生成答案。

2.1 多模态混合检索:打破视觉与文本的隔阂
为了解决这一问题,ViDoRAG 提出了多模态混合检索策略。这一策略的核心在于将视觉和文本特征进行有机结合,通过高斯混合模型(GMM)动态调整检索结果的分布。
具体来说,ViDoRAG 首先分别通过视觉和文本管道进行信息检索,然后利用 GMM 模型对检索结果进行融合。GMM 模型能够根据查询与文档集合之间的相似度分布,自动确定每个模态的最优检索数量。这种方法不仅提高了检索的准确性,还减少了不必要的计算,使得模型能够更高效地处理大规模文档集合。
2.2 多智能体迭代推理:开启类人思考新范式
在检索到相关信息后,如何生成准确且全面的答案,是 RAG 系统的另一个关键挑战。传统的 RAG 方法在生成答案时,往往缺乏足够的推理能力,尤其是在处理复杂推理任务时,容易出现答案不准确或不完整的问题。为了解决这一问题,ViDoRAG 引入了多智能体生成流程,通过模拟人类的推理过程,逐步提炼出最终的答案。
这种多智能体的协作方式,不仅提高了生成答案的准确性,还使得整个过程更加高效。通过模拟人类的推理过程,ViDoRAG 能够更好地处理复杂的视觉文档任务,生成更加准确和全面的答案。


实验与分析
在实验中,研究者们采用了多种模型进行端到端评估,评估指标主要为准确率,通过 GPT-4o 对参考答案和最终答案进行比较打分。
实验结果显示,ViDoRAG 在 ViDoSeek 基准测试中表现出色,显著优于现有的方法。例如,在 GPT-4o 模型上,ViDoRAG 的准确率达到了 79.4%,比传统 RAG 方法提高约 10% 以上,这一结果充分证明了 ViDoRAG 框架的有效性和优越性。

在检索性能方面,ViDoRAG 的动态检索策略展现了显著的优势。通过 GMM 动态确定检索文档数量,不仅提高了检索的准确性,还为生成阶段减少了不必要的计算开销。这种动态调整机制使得 ViDoRAG 能够更加高效地处理大规模文档集合,进一步提升了模型的性能和效率。
研究者基于 ViDoRAG 验证了其 Test-Time Scaling。研究发现,在 ViDoRAG 框架下,不同模型的交互轮次存在明显差异:性能更强的模型由于其出色的推理能力,能够更快地理解任务需求并生成高质量的答案,因此所需的推理迭代次数更少;而性能相对较弱的模型则需要更多的推理迭代次数,通过逐步积累信息和调整思路,最终才能生成较为准确的答案。
这种差异表明 ViDoRAG 能够根据模型的性能特点,灵活地调整推理过程,从而在不同模型上都能实现较好的效果。

在时延分析中,由于多智能体系统的迭代特性,ViDoRAG 的延迟相较于传统 RAG 有所增加。具体来说,每个智能体依次执行特定任务,这虽增加了时延,但生成答案的质量却显著提升。因此,在复杂 RAG 任务中,这种延迟与准确率之间的权衡是值得的。


总结和展望
(文:PaperWeekly)