该文档提出了一种名为GraphRAG的基于图的检索增强生成方法,核心是解决传统RAG在全局问题上的短板,实现对大规模文本语料的全局意义建构。
核心背景与问题
- 传统RAG(向量RAG)擅长处理局部查询,但无法应对“数据集的主要主题是什么”这类需要全局理解的问题,这类问题本质是查询聚焦摘要(QFS)任务。
- 现有QFS方法难以适配RAG系统的大规模文本索引需求,因此需要融合两者优势。
GraphRAG核心设计与流程
- 索引构建阶段
- 文本切块:将源文档拆分为文本块,平衡提取成本与信息召回率。
- 实体与关系提取:利用LLM提取文本块中的实体、实体关系及事实声明,并生成描述。
- 知识图谱构建:将提取...