DocVQA 归档 - 每时AI

多模态RAG前沿速读：三看SimpleDoc双线索实现思路

2025年6月20日14时作者老刘说NLP

2025年6月19日，北京晴。介绍SimpleDoc多模态RAG方案，结合视觉嵌入和LLM生成的摘要来检索相关页面，并迭代更新查询以改进答案。结果显示其在4个DocVQA数据集上表现优于基准模型。