多模态RAG框架LAYRA及Deepresearch、ReZero强化搜索优化实现思路

今天是2025年4月19日,星期六,北京,晴。

文档多模态RAG进展,关于多模态文档RAG,我们在前两天已经讲过了,关于起必要性和一些实现方式。大多数RAG系统依赖OCR或基于文本的解析来处理文档,但这些方法存在❌失去文档布局排版(列、表格、层级结构崩溃)、❌无法处理非文本视觉元素(图表、图形、图片等)、❌OCR分割导致语义断裂等问题

多模态RAG,通过使用纯视觉嵌入,可以缓解这一问题,保留✅布局结构(标题、列表、段落);✅表格完整性(行、列、合并单元格);✅视觉元素(图形、图表、手写);✅布局与内容之间的一致性。所以,这块,可以看一个简单的demo开源框架,看看实现方式。这是本文的第一件事。

另外,我们来看看关于AI搜索以及DeepResearch的两个案例,读起来都有借鉴意义,深入代码去看。

抓住根本问题,做根因,专题化,体系化,会有更多深度思考。大家一起加油。

一、多模态RAG的框架LAYRA实现思路

LAYRA框架(https://github.com/liweiphys/layra),其支持PDF批量上传和解析功能,提供基于视觉的检索增强生成(RAG)系统,支持查询文档内容,在功能上,首个测试版本现已开放试用,仅支持PDF文档。

在工程上,前端采用Next.js, TypeScript, TailwindCSS, Zustand;后端采用FastAPI, Kafka, Redis, MySQL, MongoDB, MinIO, Milvus;模型底座上,Embedding采用colqwen2.5-v0.2,LLM Serving:采用VLM  (Qwen2.5-VL series)

可以看看起实现的技术流程,核心两张图:

一个是查询流程,查询经过嵌入→向量检索→答案生成:

一个是上传与索引流程,PDF被解析为图像,并通过ColQwen2.5进行视觉嵌入,元数据和文件存储在适当的数据库中。

在应用场景上,项目认为,可以用在智能文档问答(合同、发票、扫描版报告);政策/法律文件(结构复杂的PDF文档解析);工业手册(不便于OCR处理的版式/表格/流程图);可视化分析(基于图表数据的趋势挖掘);

当然,也可以看看项目远景,也是符合大家的一些真实需求。例如:知识库PDF批量上传和解析功能、基于RAG的对话系统,支持查询和回答、OpenAI兼容接口接入(ollama、sglang、vllm)、代码架构和模块化优化,以实现更好的可扩展性、支持更多视觉或多模态大模型、扩展文档格式支持(如Word、PPT、Excel)、集成智能Agent,用于多跳推理、接入知识图谱体系、支持DockerCompose快速部署、开放知识库API接口。

这些都是我们在看这个项目时能学到的点。

一、AI搜索以及DeepResearch的两个案例

一个是Deepresearch的工作,LlamaResearcher(https://github.com/AstraBert/llama-4-researcher),实现流程如下:

请求首先由一个名为 “llama-3-8b-guard” 的Guardi模型进行安全评估,该模型由Groq提供。如果提示内容安全,将继续将其路由到ResearcherAgent,这是一个功能调用代理。

ResearcherAgent首先将查询扩展为三个子查询,这些子查询将用于网络搜索。通过LinkUp(https://linkup.so/)对每个子查询进行深度网络搜索。从网络检索到的信息将与原始用户提示进行相关性评估。

一旦代理收集了所有信息,它将撰写最终的报告并将其返回给用户。

而这块的核心其实还是搜索这个环节,所以,怎么让这个搜索过程尽可能执行的好一些,那就是优化搜索,所以,就有了第二个事情,ReZero: Enhancing LLM search ability by trying one-more-time(https://github.com/menloresearch/ReZero)

实现思路为:通过强化学习训练,让模型在搜索中不断优化查询。与多个合成搜索引擎交互,每个引擎都具有独特的检索机制,以优化查询并持续搜索,直到找到准确的答案。使用的是GRPO算法,https://github.com/menloresearch/ReZero/blob/main/train_grpo.py

具体可以看看一些对比实验设置,例如:https://kkgithub.com/menloresearch/ReZero/blob/main/notebooks/250331_train_grpo_r1_distil.ipynb,核心区别,奖励如何设置。

参考文献

1、ttps://github.com/liweiphys/layra

2、https://github.com/AstraBert/llama-4-researcher

(文:老刘说NLP)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往