多模态RAG框架LAYRA及Deepresearch、ReZero强化搜索优化实现思路

今天是2025年4月19日，星期六，北京，晴。

文档多模态RAG进展，关于多模态文档RAG，我们在前两天已经讲过了，关于起必要性和一些实现方式。大多数RAG系统依赖OCR或基于文本的解析来处理文档，但这些方法存在❌失去文档布局排版（列、表格、层级结构崩溃）、❌无法处理非文本视觉元素（图表、图形、图片等）、❌OCR分割导致语义断裂等问题；

多模态RAG，通过使用纯视觉嵌入，可以缓解这一问题，保留✅布局结构（标题、列表、段落）；✅表格完整性（行、列、合并单元格）；✅视觉元素（图形、图表、手写）；✅布局与内容之间的一致性。所以，这块，可以看一个简单的demo开源框架，看看实现方式。这是本文的第一件事。

另外，我们来看看关于AI搜索以及DeepResearch的两个案例，读起来都有借鉴意义，深入代码去看。

抓住根本问题，做根因，专题化，体系化，会有更多深度思考。大家一起加油。

一、多模态RAG的框架LAYRA实现思路

LAYRA框架(https://github.com/liweiphys/layra)，其支持PDF批量上传和解析功能，提供基于视觉的检索增强生成(RAG)系统，支持查询文档内容，在功能上，首个测试版本现已开放试用，仅支持PDF文档。

在工程上，前端采用Next.js, TypeScript, TailwindCSS, Zustand；后端采用FastAPI, Kafka, Redis, MySQL, MongoDB, MinIO, Milvus；模型底座上，Embedding采用colqwen2.5-v0.2，LLM Serving:采用VLM (Qwen2.5-VL series)

可以看看起实现的技术流程，核心两张图：

一个是查询流程，查询经过嵌入→向量检索→答案生成：

一个是上传与索引流程，PDF被解析为图像，并通过ColQwen2.5进行视觉嵌入，元数据和文件存储在适当的数据库中。

在应用场景上，项目认为，可以用在智能文档问答(合同、发票、扫描版报告)；政策/法律文件(结构复杂的PDF文档解析)；工业手册(不便于OCR处理的版式/表格/流程图)；可视化分析(基于图表数据的趋势挖掘);

当然，也可以看看项目远景，也是符合大家的一些真实需求。例如：知识库PDF批量上传和解析功能、基于RAG的对话系统，支持查询和回答、OpenAI兼容接口接入（ollama、sglang、vllm）、代码架构和模块化优化，以实现更好的可扩展性、支持更多视觉或多模态大模型、扩展文档格式支持（如Word、PPT、Excel）、集成智能Agent，用于多跳推理、接入知识图谱体系、支持DockerCompose快速部署、开放知识库API接口。

这些都是我们在看这个项目时能学到的点。

一、AI搜索以及DeepResearch的两个案例

一个是Deepresearch的工作，LlamaResearcher(https://github.com/AstraBert/llama-4-researcher)，实现流程如下：

请求首先由一个名为 “llama-3-8b-guard” 的Guardi模型进行安全评估，该模型由Groq提供。如果提示内容安全，将继续将其路由到ResearcherAgent，这是一个功能调用代理。

ResearcherAgent首先将查询扩展为三个子查询，这些子查询将用于网络搜索。通过LinkUp(https://linkup.so/)对每个子查询进行深度网络搜索。从网络检索到的信息将与原始用户提示进行相关性评估。

一旦代理收集了所有信息，它将撰写最终的报告并将其返回给用户。

而这块的核心其实还是搜索这个环节，所以，怎么让这个搜索过程尽可能执行的好一些，那就是优化搜索，所以，就有了第二个事情，ReZero: Enhancing LLM search ability by trying one-more-time（https://github.com/menloresearch/ReZero），

实现思路为：通过强化学习训练，让模型在搜索中不断优化查询。与多个合成搜索引擎交互，每个引擎都具有独特的检索机制，以优化查询并持续搜索，直到找到准确的答案。使用的是GRPO算法，https://github.com/menloresearch/ReZero/blob/main/train_grpo.py

具体可以看看一些对比实验设置，例如：https://kkgithub.com/menloresearch/ReZero/blob/main/notebooks/250331_train_grpo_r1_distil.ipynb，核心区别，奖励如何设置。

参考文献

1、ttps://github.com/liweiphys/layra

2、https://github.com/AstraBert/llama-4-researcher

（文：老刘说NLP）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

一、多模态RAG的框架LAYRA实现思路

一、AI搜索以及DeepResearch的两个案例

参考文献

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复