再看大模型数据合成开源工具–DataFlow及自然场景文档解析评估问题
2025年7月4日,北京晴。文章介绍了数据合成工具Easy Dataset和DataFlow,后者支持多种数据源的解析与处理,并涵盖纯文本、强推理等任务。此外,探讨了自然场景文档解析评估问题,强调WildDoc数据集的重要性及其在现实世界扭曲下的表现。
2025年7月4日,北京晴。文章介绍了数据合成工具Easy Dataset和DataFlow,后者支持多种数据源的解析与处理,并涵盖纯文本、强推理等任务。此外,探讨了自然场景文档解析评估问题,强调WildDoc数据集的重要性及其在现实世界扭曲下的表现。
2025年7月3日星期四,北京下雨。介绍了多模态RAG进展,包括ColBERT和ColPali的局限性及标准框架问题。提出使用Agent进行内容过滤,并讨论了文档预处理,特别是非印刷体文档标准化的重要性。文章还提到MDocAgent项目及其五个专门智能体的工作流程和架构选型。同时探讨了文档图像增强问题,介绍了DocRes模型及其统一五种文档图像还原任务的通用模型。
今天继续记录一些关于文档解析的问题,包括内容遗漏、公式重复输出、大写识别、阅读顺序评测、合并页面和幻觉问题等8个典型问题,并探讨了这些问题在实际业务中的解决方案和理解。
2025年7月1日,文章介绍了多模态RAG中的文档信息增强的研究,并讨论了关于dify是否应被抛弃的思考。文章强调了多模态方法在评估企业文档理解任务上的优势,展示了多种增强方法的效果比较。同时,也指出了Dify作为工具存在的局限性,包括其处理PDF表格识别问题的能力不足和切割策略不够先进等问题。
老刘说NLP技术社区致力于通过早报、专题分享和线上活动等方式,围绕大模型、RAG、文档智能及知识图谱等主题进行技术交流。目前已有43次线上分享和技术专题文章,并提供会员制服务,吸引了众多成员参与。
2025年6月30日,北京晴天。EraRAG通过局部敏感哈希和层次化图构建解决了动态语料库的检索增强生成问题,相比RAPTOR减少了高达77.5%的图重建时间。上下文工程概念将RAG、提示词工程等整合为一个整体新词,旨在帮助LLM合理执行任务。
今天是2025年6月27日,星期五,重庆,晴。文章讨论了Agent应用的搭建问题,包括其构成与核心能力、研发实际困境、稳妥和激进路线等,并涉及视觉大模型在处理文档图像时的分辨率策略。
摘要今天是2025年6月25日,星期四,北京晴天。介绍了PPT自动生成项目MultiAgentPPT的设计流程、爬虫代码及Agent的prompt,并从多智能体系统角度解析其工作原理和实现细节。