GraphRAG是否总是有效？9大代表方案在GraphRAG-Bench的多维度对比

今天是2025年6月8日，星期六，北京，晴

我们继续回到GraphRAG的话题，从现有典型的9个GraphRAG方案回顾、GraphRAG方案效果对比Benchmark、GraphRAG能否提升所有类型问题的表现三个话题来看，挺好的一个总结。

一、现有典型的9个GraphRAG方案回顾

先看看当前九种GraphRAG方案

1、RAPTOR

“RAPTOR: Re-cursive abstractive processing for tree-organized retrieval，https://arxiv.org/abs/2401.18059

主要思想是递归构建树形文本索引，通过分层聚类与摘要实现多粒度检索。技术亮点在于自底向上递归聚类文本块，生成多层级抽象摘要（叶节点=原文，上层=概括），检索时从树中提取不同抽象层的内容，增强长文档理解。

2、LightRAG

lightrag: Simple and fast retrieval-augmented generation，https://arxiv.org/abs/2410.05779

核心是使用LLM为每个实体节点和关系边生成文本键值对，索引键是用于高效检索的词或短语，值是总结相关信息的文本段落，在检索准确性和效率方面比GraphRAG现有方法有显著提高。

3、GraphRAG

From local to global: A graph rag approach to query-focused summarization， https://arxiv.org/abs/2404.16130

主要思想是用知识图谱结构组织文本索引，支持全局语义理解,构建实体知识图谱，预生成社区摘要（实体群组的概括），检索时融合相关社区摘要，再生成最终答案。

4、G-Retriever

G-retriever:Retrieval-augmented generation for textual graph understanding and question answering，https://arxiv.org/abs/2402.07630

主要思想是针对文本属性图的问答，将RAG与图结构结合。用图神经网络（GNN）学习文本节点表示，增强语义理解。检索时建模为带权斯坦纳树问题，高效定位相关子图。

5、HippoRAG

Hipporag: Neurobiologically inspired long-termmemory for large language models，https://arxiv.org/abs/2405.14831

主要思想是受海马体记忆机制启发，设计高效长期记忆框架。模仿大脑索引理论：LLM（新皮层）+KG（海马体）协同记忆，用PageRank算法优化知识检索路径。

6、GFM-RAG

Gfm-rag: Graph foundation model forretrieval augmented generation，https://arxiv.org/abs/2502.01113

主要思想是训练图基础模型（GFM）统一图检索增强，预训练GNN模型（8M参数）跨60个知识图谱，无需微调即可迁移。建模查询-知识复杂关系，提升多源知识融合能力。

7、DALK

DALK: Dynamic co-augmentation of LLMs and KG to answer Alzheimer‘s disease questions with scientific literature，https://arxiv.org/abs/2405.04819

主要思想是LLM与KG动态协同增强，专注阿尔茨海默病领域。LLM构建领域KG，从科学文献抽取AD相关知识，并进行粗到细检索，自感知知识选择+上下文增强推理。

8、KGP

Knowledge graph prompting for multidocument question answering，https://arxiv.org/abs/2308.11730用KG提示解决多文档问答（MD-QA）的结构关联问题。核心在于图构造，节点=文本/结构（如表格），边=语义/结构关系。以及进行图遍历代理，LLM驱动路径搜索，逐步收集证据。

9、ToG

Think-on-graph: Deep and responsible reasoning of large language model on knowledge graph，https://arxiv.org/abs/2307.07697

亮点在于LLM⊗KG范式，LLM作为代理探索KG实体关系链，路径可追溯，支持知识纠偏（专家反馈）。

二、GraphRAG方案效果对比Benchmark

目前对GraphRAG模型的评估主要依赖于传统的问答数据集，在问题和评估指标方面的局限性，无法全面评估GraphRAG模型所带来的推理能力提升，所以可以搞个专门的benchmark。

最近工作《GraphRAG-Bench: Challenging Domain-Specific Reasoning for Evaluating Graph Retrieval-Augmented Generation》(https://arxiv.org/pdf/2506.02404)，涵盖了包括多项选择题、判断题、多选题、开放式问题和填空题几个推理任务，一共1018个问题。

其中涉及到的几种问题类型的定义如下：

从数据的构建方式上，从20本PDF格式的核心教材中提取准确内容，应用LayoutLMv3进行多模态文档布局分析，将提取的内容组织成层次化的教材树结构，最终将教材元数据（例如，章节标题、小节划分和页码范围）映射到一个四级层次结构中：书名->章节->小节（子章节）->知识内容单元。

先看看不同Graphrag的效果对比，从图构建、知识检索两个角度进行对比。

1、图构建的对比

从三个方面评估图构建：1) 效率：构建完全图所需的时间。2) 成本：图构建过程中消耗的 token 数量。3) 组织性：构建图中非孤立结点的比例。

当前主流的图构建方法可分为四类，对应的结论如下：

1)树结构Tree：RAPTOR采用此结构，其中每个叶结点代表一个文本块。通过利用大语言模型生成摘要并应用聚类方法，迭代创建父结点，形成层次化的树结构。产生的token数量最少，因为它仅调用LLMs进行摘要生成，但由于迭代聚类过程，所需时间最长；

2)段落图Passage Graph：KGP采用此结构，将每个文本块表示为一个结点，并通过实体链接工具建立边。段落图的token成本次优，仅调用LLMs对实体或关系进行摘要，其时间消耗第二长，主要归因于耗时的实体链接过程。段落图的非孤立结点比率最低，表明实体链接工具未能有效在大多数实体对之间建立边。

3)知识图谱Knowledge Graph：G-Retriever、HippoRAG、GFM-RAG和DALK使用此结构，借助开放信息提取（OpenIE）工具从文本块中抽取实体和关系，构建知识图谱。知识图谱的token使用量适中，需要LLMs从语料库中提取实体并从实体生成三元组，但由于在获取三元组后快速构建知识图谱，因此实现了最短的时间消耗；**知识图谱表现最佳，其非孤立结点比率保持在约90%**。

4)丰富知识图谱Rich Knowledge Graph：GraphRAG和LightRAG采用此结构，通过添加额外信息（如为结点或边生成总结性描述）来增强标准知识图谱。其消耗的token最多，因为它在标准知识图谱的基础上通过LLMs为实体和关系生成额外的描述，导致时间成本增加。图中非孤立结点的比例次优，虽然它包含了额外信息，但不可避免地引入了更多噪声。

2、知识检索的对比

从两个维度进行评估：1）索引时间，即构建用于检索的向量数据库所需的时间；2）平均检索时间，表示每次查询进行知识检索所消耗的平均时间。

1）索引时间方面

GFM-RAG的索引时间最短，它并未构建传统的向量数据库来存储实体，而是在图构建过程中仅存储与问题对应的实体；

在使用向量数据库的方法中，KGP、RAPTOR和DALK由于存储信息最少，成本较低；ToG、G-Retriever和LightRAG的成本适中，因为关系存储本身耗时；

GraphRAG通过额外存储社区报告进一步增加了索引时间。

HippoRAG的索引时间最长，归因于其额外构建了实体<->关系和关系<->块映射。

2）平均检索时间方面

RAPTOR速度最快，其树形结构能够快速定位信息。GFM-RAG和HippoRAG紧随其后，分别利用GNN和PageRank算法进行检索；

G-retriever采用了奖赏收集斯坦纳森林算法，而LightRAG依赖于基于关系的检索，两者都引入了额外的延迟。

GraphRAG需要利用社区信息进行检索，因此耗时较长；

KGP、ToG和DALK由于在检索过程中依赖LLM调用，产生了较大的时间成本。

3、准确性的评估

在准确性方面的对比也很有意思：

DALK和G-Retriever降低了LLM的性能；它们过度依赖结构信息而牺牲语义内容，在生成过程中引入了过多的噪声，损害了LLM的判断准确率；

LightRAG、ToG和KGP实现了轻微的性能提升，表明其检索到的内容对生成任务提供了有限的帮助；

相比之下，GFM-RAG、GraphRAG和HippoRAG通过有效整合图结构信息与块级语义，显著提升了LLM的性能：GFM-RAG利用大规模预训练获得了一个强大的基础模型，GraphRAG通过基于社区的信息优化了检索，而HippoRAG则通过PageRank算法提高了检索效率；

表现最佳的方法是RAPTOR，它通过迭代聚类构建树结构，这一设计与教科书数据的自然层次组织相契合，从而实现了高效的相关信息检索。

大多数GraphRAG方法在生成准确率上优于传统的RAG基准方法如BM-25和TF-IDF，凸显了基于图形的架构在提升生成准确率方面的实用性。

三、GraphRAG能否提升所有类型问题的表现?

1、多项选择题准确率下降

大模型（LLMs）通过在大规模语料库上进行广泛训练，内化了大量知识，这使得它们通常能够在多项选择任务中正确选择答案。

然而，GraphRAG基于检索的增强可能会引入冗余或与问题上下文关联不紧密的信息。这种检索噪声可能会干扰模型的决策能力，最终降低其在多项选择题上的准确率。

2、判断题准确率提升

判断题需要对事实或逻辑陈述进行二元判断。对于某些事实，大模型可能存在知识盲点或知识不完整，从而导致回答错误。

通过检索相关的事实证据，GraphRAG帮助模型在回答之前验证陈述。这些补充信息提高了模型在判断题上的准确率。

3、开放式问题准确性提升

开放式问题允许进行广泛的、详细的回答，这对于仅依赖内部知识的大模型来说可能是一个挑战。

GraphRAG通过提供来自外部语料库的额外上下文和事实来缓解这一挑战。检索到的信息丰富了模型的回答，提高了主题细节和表达力，并通过将答案基于明确的证据来减少幻觉现象的发生。

4、填空题准确性下降

填空题需要精确理解上下文才能正确预测缺失的词语。GraphRAG检索到的语料库往往无法精确匹配上下文，引入的噪声会降低模型在填空题上的表现。

5、多项选择题准确性下降

多选题要求从一组选项中选择多个正确答案，并且涉及对复杂选项组合的推理；如果GraphRAG的检索遗漏了相关答案选项或包含无关细节，可能会使模型感到困惑。

因此，这些题型对检索精度要求很高；除非GraphRAG的检索高度准确，否则其益处可能有限。

参考文献

1、https://arxiv.org/pdf/2506.02404

（文：老刘说NLP）

2025 年 6 月
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

一、现有典型的9个GraphRAG方案回顾

二、GraphRAG方案效果对比Benchmark

三、GraphRAG能否提升所有类型问题的表现?

参考文献

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复