今天是2025年5月17日,星期六,北京,晴。
我们今天继续看看知识图谱基础上引入因果推理证据挖掘,并用于增强RAG的思路。
一个是运用KG+COT+NLI蕴含推理RAG证据挖掘思路GE-Chat的思路,是个集成方案。
另一个还是回顾下之前的Causal方案。
这个方向本质上是在做去造噪。
抓住根本问题,做根因,专题化,体系化,会有更多深度思考。大家一起加油。
一、KG+COT+NLI进行RAG生成线索挖掘-GE-Chat
我们继续看知识图谱增强RAG框架,GE-Chat运用知识图谱+COT+NLI蕴含推理做响应证据挖掘,是个集成性的思路,《GE-Chat: A Graph Enhanced RAG Framework for Evidential Response Generation of LLMs》,https://arxiv.org/abs/2505.10143,思路在于通过构建知识图谱和利用链式思维(CoT)逻辑生成、n跳子图搜索和基于蕴含的句子生成来实现准确的证据检索。
从上面加粗的关键词,下图中标红的描述,其实可以很明显的看出,把推理路径、因果蕴含推理这些都集成了,打的还是一个可解释的点,这个和之前讲的causalGraph又更进一步了。

1、实现步骤主要实现步骤如下:
step1.知识图谱构建Graph-RAG Construction(当用户上传文档后,提取文档chunk中的实体和实体之间的关系,构建知识图谱,用于辅助生成回答,并作为外部信息提供给LLMs以增强其回答的质量)–>step2.Chain-of-Thought (CoT) 推理引导CoT Reasoning Elicitation(通过设计CoT模板,从LLMs生成的回答中逐步提取逻辑步骤,步骤被组织成链式结构,帮助用户理解回答是如何得出)–>step3.高效子图搜索Efficient Sub-Graph Searching(基于CoT结果和知识图谱,进行子图搜索,找到与CoT结果最相关的实体和关系,通过锚定实体将生成的内容与原始文档,确保证据严格来源于提供的文档)–>step4.证据内容优化Evidence Content Optimization(优化每个回答的证据内容,通过计算句子与目标答案之间的蕴含概率,选择最简洁且最能支持答案的句子,通过定义一个目标函数F(sn),该函数基于蕴含概率和句子长度来评分)。
2、实现细节
一个是生成COT的方式,就是走的prompt:

一个是高效子图搜索,使用基于CoT结果和知识图谱,进行子图搜索。

一个是蕴含推理的计算方式:
给定一段包含n个句子的文本,S={s1,s2,…,sn},以及一个代表答案内容中的句子的目标句子S,目标是找到最佳句子sbest∈S,满足:最大化蕴含概率prob(sn∣S′),衡量sn蕴含S′的程度;最小化句子长度len(sn),鼓励简洁的表达。

核心思路就是加权重处理,例如,使用自然语言推理模型计算蕴含推理,输入两个文本对,做三标签分类;另一个就是句子长度惩罚。
3、最终展现形态
最后看下最终形成状态。
一个给定文档和问题,生成的答案,以及在原文中的高亮。

回答该问题的COT思维链:

该文档中抽取出的实体列表:

从cot和知识图谱中找到的实体:

最终筛选出来的证据句子:

二、引入因果关系进行路径过滤方案CausalRAG
这里,还是有必要再串起来之前讲过的CausalRAG思路,我们在文章《Agent-MCP开源动手实践指引及CausalRAG将因果关系用于RAG实现思路》(https://mp.weixin.qq.com/s/X-RZfg9uWO1aSIRolwIVzQ)中讲过,《CausalRAG: Integrating Causal Graphs into Retrieval-Augmented Generation》(https://arxiv.org/pdf/2503.19878),将因果关系图融入检索过程的新框架,通过构建和追踪因果关系,保持上下文连续性,以此提高检索精度,核心是在召回好的GraphRAG路径后进行去噪,

在具体实现上,匹配初始节点(根据用户查询,选择与查询最相关的初始节点,选择距离最小的k个节点,代表与查询直接相关的最相关信息)->扩展搜索(从初始节点开始,沿着图的边扩展搜索,这个过程可以通过遍历图中的边来实现,通过调整扩展参数,可以捕捉文本中的长距离内容)->分析因果关系(使用大模型分析每条路径上的因果关系,确定哪些路径对回答查询最为关键,构建一个精细化的因果图)->生成因果摘要(基于分析结果,生成一个包含关键因果信息的摘要,这个摘要将用于后续的生成过程,以确保生成的响应既相关又准确)。

代码在https://github.com/hippoley/CausalRAG。

总结
在挖掘因果证据方面,知识图谱+COT+NLI蕴含推理这条路好像又是很顺道、很自然的一种做法,这也是知识图谱能够发挥的点,大家可多关注。
参考文献
1、https://arxiv.org/abs/2505.10143
2、https://mp.weixin.qq.com/s/X-RZfg9uWO1aSIRolwIVzQ
(文:老刘说NLP)