技术总结之RAG用于文档信息抽取及多模态大模型两阶段训练范式
2025年7月9日,北京晴天。文章总结了SIGIR 2025 LiveRAG竞赛的评测报告,并介绍了信息抽取和多模态大模型训练的相关方案。强调在轮子同质化背景下,业务know-how的重要性,指出文档解析、RAG及大模型应用出现同质化严重现象。同时提到了两个大模型训练指引资源。
2025年7月9日,北京晴天。文章总结了SIGIR 2025 LiveRAG竞赛的评测报告,并介绍了信息抽取和多模态大模型训练的相关方案。强调在轮子同质化背景下,业务know-how的重要性,指出文档解析、RAG及大模型应用出现同质化严重现象。同时提到了两个大模型训练指引资源。
2025年是Agent从概念走向主流的关键时刻。Agent是一种自主智能体,能感知环境、决策并进化。它对程序员来说就像“超级外挂”,具备感知-决策-执行闭环和工具调用能力。为了拥抱Agent,开发者需要进行认知升级和技能重构,并通过相关课程和技术资料快速掌握技术原理。
2025年7月7日星期一北京晴,小暑注意防暑。文档智能进展包括版式分析标签问题和RAG竞赛方案;现有中文文档版式分析的标签体系主要有360layoutanalysis、doclayout和PP-DocLayout;SIGIR 2025 LiveRAG竞赛有多个获奖方案介绍,如TopClustRAG、RMIT–ADM+S等。
今天是2025年7月6日,星期日,北京晴天。文章介绍了六个无代码LLM、Agent和RAG开源工具,并探讨了使用推理大模型进行时间序列预测的方法及其奖励函数设计。
一篇关于博主通过威胁猫猫命运成功治理AI胡编乱造参考文献问题的文章,获得了大量点赞和评论。然而,使用这种方法测试DeepSeek发现其表现并不理想,依然存在错误的文献链接。文章探讨了如何降低人工智能生成内容中的幻觉现象。
老刘说NLP技术社区致力于通过早报、专题分享和线上活动等方式,围绕大模型、RAG、文档智能及知识图谱等主题进行技术交流。目前已有43次线上分享和技术专题文章,并提供会员制服务,吸引了众多成员参与。
摘要今天是2025年6月25日,星期四,北京晴天。介绍了PPT自动生成项目MultiAgentPPT的设计流程、爬虫代码及Agent的prompt,并从多智能体系统角度解析其工作原理和实现细节。
老刘说NLP技术社区致力于以公正、客观的角度围绕大模型&RAG&文档智能&知识图谱四个方向展开多形式的技术分享,内容涵盖每日早报、线上主题分享及专题课程等。