OCR噪声直接命中了RAG的软肋~ 下午2时 2024/12/16 作者 PaperAgent 在RAG系统中,基于OCR的非结构化PDF文档抽取导致知识库中的语义噪声和格式噪声问题,影响RAG系统的性能。OHRBench评估了当前OCR解决方案,并推荐使用Marker实现最佳检索性能,但所有解决方案仍存在性能下降。