Agentic CoT驱动,清华DO-RAG领域问答性能飙升33%,远超FastGPT、Dify

领域特定的问答系统不仅需要具备生成流畅性,还需要基于结构化专家知识的高事实准确性。尽管最近的检索增强生成(RAG)框架提高了上下文回忆能力,但在整合异构数据和保持推理一致性方面仍面临挑战。
为此,清华提出了DO-RAG,一个可扩展且可定制的混合问答框架,它将多级知识图谱构建与语义向量检索相结合。采用了一种新颖的Agentic CoT架构,从非结构化的多模态文档中提取结构化关系,构建动态知识图谱以增强检索精度。并在查询时将图检索和向量检索结果融合,生成上下文感知的回答,并通过基于事实的细化步骤减少幻觉。
  • 多级知识图谱构建:通过分层的代理提取管道处理文本、表格、代码片段和图像,自动构建和更新知识图谱,捕捉实体、关系和属性。

  • 混合检索融合:在查询时,将基于图的遍历与语义搜索相结合,确保所有相关且结构化的信息都能为LLM的提示提供信息。

  • 基于事实的幻觉缓解:引入后生成细化步骤,将初始LLM输出与知识图谱进行交叉验证,并迭代纠正不一致性,显著减少事实错误。

  • 即插即用模块化:框架支持多种LLMs和检索模块,允许无缝组件交换和扩展到新领域而无需重新训练。

关键结论

  • 性能表现:DO-RAG在SunDB和电气领域数据集上实现了接近完美的上下文召回率(接近1.0)和超过94%的回答相关性,比现有RAG平台的性能提高了高达33.38%。

  • 知识图谱的影响:知识图谱的集成显著提高了上下文召回率和精确度,尤其是在DeepSeek-V3模型中,回答相关性提高了5.7%,上下文精确度提高了2.6%。

  • 模型性能差异:不同语言模型在数据库和电气领域表现出不同的优势,例如GPT-4o在电气领域表现出较高的忠实度和上下文精确度。

尽管DO-RAG在减少幻觉方面取得了进展,但某些语言模型(如DeepSeek-R1)仍然可能引入幻觉。未来的工作将集中在通过更严格的提示工程来增强幻觉缓解,扩大数据集以包括更多样化的查询,并探索分布式处理和自适应缓存机制以提高可扩展性和降低延迟。

https://arxiv.org/pdf/2505.17058v1DO-RAG: A Domain-Specific QA Framework Using Knowledge Graph-Enhanced Retrieval-Augmented Generation

(文:PaperAgent)

发表评论