Dify落地知识库场景的小思考及多模态RAG结合图像信息的几种策略评估

今天是2025年7月1日，星期二，北京，晴

今天是2025年下半年的第一天，新的起点，我们继续看技术。

从评估角度看多模态RAG中的文档信息增强，逐步整合跨模态输入（文本、图像、字幕、OCR）后对应的相应影响，虽然说，这种范式看起来像是去年的，但温故而知新。

另外，来看看一个问题，关于dify是否应该被抛弃的一些思考？还是要分具体使用场景去看。

一、从评估角度看多模态RAG中的文档信息增强

来看最近的工作《Evaluating VisualRAG: Quantifying Cross-Modal Performance in Enterprise Document Understanding》，https://arxiv.org/pdf/2506.21604，VisualRAG的多模态评估框架，使用来自多个公司HR知识库的企业文档数据集，包含约200篇文章，涵盖8个主要功能领域，如福利注册流程、保险信息、休假政策等。

看两个点，一个是实验环境，一个是实验结果。

1、实验环境

这个visrag的核心就是充分利用好文档内部的各个元素，把图像进行文本化，如下图所示：

提出的方法（顶部，绿色背景）通过从PDF文档中提取并处理文本和视觉内容，增强了信息检索能力。

不同于传统的纯文本方法（底部，米色背景），系统同时提取文本和图像（如图片示例、表格以图像形式存在的人力资源文档等），通过自动生成标题和OCR文本提取对其进行丰富，并将所有模态整合为可检索的综合单元存储于S3/KB中。

在响应用户查询时，传统方法仅依赖PyPDF技术进行文本提取，无法捕捉关键的视觉信息，导致下游应用获取的上下文不完整。

多模态方法通过检索相关文本上下文及视觉元素，提供了更为完整的信息，使得下游应用能生成更有效支持用户动作的响应。

2、评估结论

采用四种逐步增强的方法进行评估：仅文本、文本+图像、文本+图像+标题、文本+图像+标题+OCR。

其中，三种标题生成方法：BLIP、Transformer-GPT2、Claude3.5Sonnet模型/Haiku3.5或NovaProLLM模型的基于大语言模型的标题生成。

每种方法的评估结果通过精确短语匹配、词重叠、CLIP嵌入比较和语义相似性等方法进行综合评分。

看下效果：

其中：

文本+图像:相较于仅文本方法，文本+图像方法的平均得分提高了5.2%，达到0.2511；

文本+图像+标题:使用Claude3.5Sonnet生成标题的方法得分最高，达到0.3572，相较于仅文本方法提高了42.3%；

文本+图像+标题+OCR:最优模态权重（30%文本，15%图像，25%字幕，30%OCR），得分最高，达到0.3754，相较于仅文本方法提高了**57.3%**。

二、关于dify是否应该被抛弃的一些思考？

使用dify这类平台搭建RAG等应用除了很容易达到上限外，还有什么缺点？如果真的要商用，打造可用的产品，是否应该自己去搭建？抛弃掉dify? dify适合做什么，不适合做什么？

实际上，如果要回答这些问题，则需要对Dify的特点和定位摸清楚。

先说下结论：

Dify是“AI应用快速试验田”，而非生产级精密工具。优势在效率，劣势在深度。短期需求：用Dify验证后，逐步替换瓶颈模块。在PoC阶段用Dify测试，再根据性能瓶颈决定模块替换或迁移，避免“全盘推翻”或“将就妥协”。

这里面的支撑逻辑是什么？

由于是个工具标品，所以很多都是内置封装最小化配置，从文本切分、排序到大模型，大多的策略都并不能解决高精度场景。

例如，Dify的RAG文档处理效果一般，特别是PDF表格识别问题严重，导致召回失败。而且切割策略并不先进，只能使用固定的正则表达式切割，对于普通用户来说操作困难，多路召回的效果也不理想，关键词召回实际上效果很差，基本依赖向量检索，所以，这个就是很容易达到上限。

而对于是否应该自己自研搭建，建议根据需求复杂度决定。

简单场景用Dify快速验证，复杂或高性能需求则需自研。提到结合部署方案，比如用Dify做前端+RAGFlow或者mineru处理文档。

当然，对于用户而言，还是要因地制宜，例如，技术能力弱、需求简单用Dify，复杂逻辑、长期投入则选自研。

一般来说，需要权衡开发效率与定制需求，Dify适合原型和简单应用，但商用产品若涉及高性能或复杂处理，可能需要自研或者魔改其他。

我们落地时，往往看的是这个东西的下限，并且要做到商用，其实很复杂，需要做许多优化策略，但是，具体选择什么，全凭自己在做的事情，没有绝对。

参考文献

1、https://arxiv.org/pdf/2506.21604

（文：老刘说NLP）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

一、从评估角度看多模态RAG中的文档信息增强

二、关于dify是否应该被抛弃的一些思考？

参考文献

发表评论 取消回复

发表评论取消回复