三种主流文本嵌入编码范式及KG-Infused RAG做问题扩展新思路

今天是2025年6月13日,星期五,北京晴天。文章介绍了三种embedding编码范式(Bi-encoders、Cross-encoder、ColBERT)及其对比,并探讨了知识图谱与RAG结合在问答系统中的应用,重点介绍《KG-Infused RAG: Augmenting Corpus-Based RAG with External Knowledge Graphs》的研究工作及其步骤。

如何用大模型自动生成PPT?AutoPresent及SlideCoder方案

今天是2025年6月12日,星期四,北京晴。文章介绍了两种PPT生成方案AutoPresent和SlideCoder,前者通过微调LLAMA模型生成Python代码,后者使用布局感知的检索增强生成框架,包含层次化检索增强生成、图像分割等技术。

GraphRAG的优劣势及文档解析结合RL强化学习新思路Infinity Parser

在2025年6月11日的文章中,探讨了《Infinity Parser》结合强化学习和文档解析数据集的构建,并介绍了《When to use GraphRAG: A Comprehensive Analysis for Graph Retrieval-Augmented Generation》,分析了GraphRAG在不同场景下的有效性。

真实场景下文档解析中的2大类8个常见问题:目录层级解析、布局检测、阅读顺序及长表格拼接

2025年6月10日,北京晴。本文讨论了文档解析处理中的检测问题和语义解析问题,包括布局检测、阅读顺序识别、背景干扰、ppocrv5模型精度、跨页表格合并等问题,并提出了解决方案。

强化学习数据合成框架SynLogic及语音大模大模型评估

2025年5月29日,北京晴。文章介绍了大模型推理及语音模型评估进展和数据合成框架SynLogic的最新情况,包括DeepSeek-R1更新、LALM-Evaluation-Survey项目以及用于生成多样化的逻辑推理数据的SynLogic框架。