纯Prompt提示LLM的多阶段知识图谱三元组抽取及Schema生成方案

今天是2025年6月15日，星期日，北京，晴

我们来看看一个纯LLM驱动的知识图谱三元组及Schema提取方案，例如图中的实体节点（蓝色）和事件节点（绿色）是从文本中提取的，而概念节点（橙色）则是通过模式归纳获得。

方法来自于《AutoSchemaKG: Autonomous Knowledge Graph Construction through Dynamic Schema Induction from Web-Scale Corpora》，https://arxiv.org/pdf/2505.23628，其思路很粗暴，就是完全基于LLM来构建图谱，并且不预先指定schema，而是从提取的三元组出发，归纳出实体类型、关系类型和事件类型，地址在https://github.com/HKUST-KnowComp/AutoSchemaKG，核心的核心就是一堆prompt，多阶段，很工程化。

一、纯Prompt提示LLM的知识图谱三元组及Schema生成方式

为了形成上述图谱，看提取方式，可以当作纯LLM驱动的方式去做，为了得到上述节点，可以采用以下提示来获取：

1、Triple Extraction三元组抽取

依次通过三个阶段，分别抽取EntityEntity, Entity-Event, and Event-Event relationships。

1）实体关系抽取，生成实体之间关系的文本三元组

识别实体与实体之间的关系，输出被解析为三元组（e1, r, e2），其中e1和e2属于实体节点集合VN，r属于关系类型集合R。

2）事件和实体三元组抽取，生成实体和事件之间关系的文本三元组*

识别实体与事件之间的关系，生成三元组（e, r, v）或（v, r, e），其中e属于实体节点集合VN，v属于事件节点集合VE，r属于关系类型集合R。

3、事件关系抽取，生成事件和事件之间关系的三元组

识别事件与事件之间的关系，生成三元组（v1, r, v2），其中v1和v2属于事件节点集合VE，r属于关系类型集合R。

2、Schema Induction图谱Schema生成

将具体的实体、事件和关系抽象化为一般化的类型。这一过程利用大模型生成代表每种这些类型的抽象概念短语。

1）抽象事件短语生成，生成事件概念

2）抽象实体短语生成，生成实体概念

3）抽象关系短语生成，生成关系类型

为每个元素生成至少三个短语，这些短语在不同的抽象层次上封装了其类型或相关概念。

二、AutoSchemaKG的实验成本及存在问题

卡看具体的实验数据和成本：

整个代价并不低，80GB的GPU（具备1,513TFLOPS的FP16计算能力），运行带有FlashAttention的Llama-3-8B-instruct模型来构建知识图谱。

1、处理英文维基百科（En-Wiki，包含2.439亿个节点和14.9亿条边）耗费了14,300个GPU小时；处理Pes2o-Abstract（包含1.744亿个节点和11.5亿条边）耗费了11,800个GPU小时；

2、处理CommonCrawl（包含9.373亿个节点和59.6亿条边）则耗费了52,300个GPU小时。

3、以批处理的方式处理每段1,024个token的文本，总共投入了约78,400个GPU小时，用于提取数十亿条语义关系。

但是，这个工作的工作量是很大的，但是这种方式很粗暴，有些问题还是不能回避，因为除了提取之后，还涉及到实体消歧、对齐、关系对齐、事件对齐以及概念消歧、概念层级等工作，这些往往是保证知识图谱可用性的前提。

参考文献

1、https://arxiv.org/pdf/2505.23628

（文：老刘说NLP）

2025 年 6 月
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

一、纯Prompt提示LLM的知识图谱三元组及Schema生成方式

二、AutoSchemaKG的实验成本及存在问题

参考文献

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复