技术总结之RAG用于文档信息抽取及多模态大模型两阶段训练范式

2025年7月9日,北京晴天。文章总结了SIGIR 2025 LiveRAG竞赛的评测报告,并介绍了信息抽取和多模态大模型训练的相关方案。强调在轮子同质化背景下,业务know-how的重要性,指出文档解析、RAG及大模型应用出现同质化严重现象。同时提到了两个大模型训练指引资源。

2025年AI Agent大爆发,全面拥抱智能体

2025年是Agent从概念走向主流的关键时刻。Agent是一种自主智能体,能感知环境、决策并进化。它对程序员来说就像“超级外挂”,具备感知-决策-执行闭环和工具调用能力。为了拥抱Agent,开发者需要进行认知升级和技能重构,并通过相关课程和技术资料快速掌握技术原理。

SIGIR 2025 LiveRAG竞赛获奖方案及中文文档版式分析的标签设计

2025年7月7日星期一北京晴,小暑注意防暑。文档智能进展包括版式分析标签问题和RAG竞赛方案;现有中文文档版式分析的标签体系主要有360layoutanalysis、doclayout和PP-DocLayout;SIGIR 2025 LiveRAG竞赛有多个获奖方案介绍,如TopClustRAG、RMIT–ADM+S等。

猫猫拯救科研!AI怕陷“道德危机”,网友用“猫猫人质”整治AI乱编文献

一篇关于博主通过威胁猫猫命运成功治理AI胡编乱造参考文献问题的文章,获得了大量点赞和评论。然而,使用这种方法测试DeepSeek发现其表现并不理想,依然存在错误的文献链接。文章探讨了如何降低人工智能生成内容中的幻觉现象。

聚焦RAG&KG&LLM&文档解析:老刘说NLP技术社区对外纳新

老刘说NLP技术社区致力于通过早报、专题分享和线上活动等方式,围绕大模型、RAG、文档智能及知识图谱等主题进行技术交流。目前已有43次线上分享和技术专题文章,并提供会员制服务,吸引了众多成员参与。