也看基于版式分析的PDF文档翻译项目及文档版式分析模型PP-DocLayout

今天是2025年3月25日,星期二。文章介绍了两个文档相关的项目,一个是基于版式分析的PDF文档翻译项目Fast_pdf_trans和PDFMathTranslate,另一个是文档版式分析模型PP-DocLayout。PP-DocLayout能够检测多种类型的文档,并且其三种不同比例的模型在处理复杂布局方面表现良好。而PDFMathTranslate则使用Pdfminer.six等库解析PDF文档,保留了排版信息进行翻译。

RAG中的chunk质量如何评分?HiRAG对GraphRAG的改进思路及推理大模型用于机器翻译

2025年3月17日的文章介绍了RAG相关进展的三方面内容:推理模型在机器翻译中的应用、量化文本分块的有效性方法,以及通过引入层级结构解决局部信息与全局信息间的差距问题。

Light-R1-32B之R1复现认识:兼看R1蒸馏模型所用800K数据细节问题

今天是2025年3月14日,星期五,北京天气晴。Light-R1-32B复现了R1的效果,但限定于数学领域AIME24、AIME25、GPQA Diamond等数据集;同时指出R1蒸馏模型所用800K数据是否来自训练还是由R1生成尚存争议。

PIKE-RAG及多模态R1-Visual-RFT思路思考:兼看olmOCR的一些测试感官

2025年3月6日周四北京晴。文章提到了OLMOCR测试情况及GraphRAG和多模态R1的工作进展,强调了奖励函数设计在强化学习中的重要性,并建议简化复杂系统架构以便应用。

聚焦前沿技术落地:大模型+知识图谱+RAG+文档智能下的老刘说NLP技术社区对外纳新

2025年转眼已过1/6,老刘说NLP技术社区已完成三次线上技术交流,涵盖RAG、Deepseek-R1推理大模型等话题。社区持续发布内容,欢迎更多成员加入,通过会员制提供多种权益和分享机会。