

-
多级知识图谱构建:通过分层的代理提取管道处理文本、表格、代码片段和图像,自动构建和更新知识图谱,捕捉实体、关系和属性。

-
混合检索融合:在查询时,将基于图的遍历与语义搜索相结合,确保所有相关且结构化的信息都能为LLM的提示提供信息。

-
基于事实的幻觉缓解:引入后生成细化步骤,将初始LLM输出与知识图谱进行交叉验证,并迭代纠正不一致性,显著减少事实错误。
-
即插即用模块化:框架支持多种LLMs和检索模块,允许无缝组件交换和扩展到新领域而无需重新训练。

关键结论
-
性能表现:DO-RAG在SunDB和电气领域数据集上实现了接近完美的上下文召回率(接近1.0)和超过94%的回答相关性,比现有RAG平台的性能提高了高达33.38%。
-
知识图谱的影响:知识图谱的集成显著提高了上下文召回率和精确度,尤其是在DeepSeek-V3模型中,回答相关性提高了5.7%,上下文精确度提高了2.6%。
-
模型性能差异:不同语言模型在数据库和电气领域表现出不同的优势,例如GPT-4o在电气领域表现出较高的忠实度和上下文精确度。


尽管DO-RAG在减少幻觉方面取得了进展,但某些语言模型(如DeepSeek-R1)仍然可能引入幻觉。未来的工作将集中在通过更严格的提示工程来增强幻觉缓解,扩大数据集以包括更多样化的查询,并探索分布式处理和自适应缓存机制以提高可扩展性和降低延迟。
https://arxiv.org/pdf/2505.17058v1
DO-RAG: A Domain-Specific QA Framework Using Knowledge Graph-Enhanced Retrieval-Augmented Generation
(文:PaperAgent)