OCR推理大模型全军覆没?OCR-Reasoning基准揭示多模态大模型推理短板

近年多模态推理模型在数学题、学科题上表现出色MathVista, MMMU等),但 OCR 相关的复杂任务——比如看促销海报算计算最便宜买法、分析财务报表、规划最优路线、处理票据信息——它们的“真本事”到底如何?


长期以来,竟然没有一个系统性的评测标准来检验这些核心 OCR 推理能力!现在,填补这一巨大空白的基准——OCR-Reasoning——终于发布!


论文标题:

OCR-Reasoning Benchmark: Unveiling the True Capabilities of MLLMs in Complex Text-Rich Image Reasoning

论文链接:

https://arxiv.org/pdf/2505.17163

代码链接:

https://github.com/SCUT-DLVCLab/OCR-Reasoning

项目主页:

https://ocr-reasoning.github.io/



现有OCR评测的短板:主要是“看答案”,没有考验“真思考”

像 DocVQA、TextVQA、OCRBench 这些主流基准,主要考察多模态大模型的感知能力,考的是信息查找和提取(比如“发票总金额是多少?”)。


这种任务靠“快思考”就能搞定,无法准确的衡量模型在复杂 OCR 场景下需要的深度推理能力,比如:


1. 空间布局理解:
版面元素之间的空间布局关系怎么看?关系图和树状图怎么看?


2. 数值计算与分析:购物怎么凑单才能最优惠?金融财报怎么分析


3. 逻辑推理与批判思维:如何根据图文信息推导结论?


4. 多学科知识应用:怎么解决物理图、化学式的问题?



OCR-Reasoning基准:专为OCR推理而生!

为了系统地评测模型在 OCR 场景下的推理水平,研究者打造了 OCR-Reasoning 基准,三大核心亮点:


高质量 & 强推理导向数据集:

  • 1069 道手工精标题目 + 1022 张图片

  • 双重标注+质量评分+人工校验流程,确保数据可靠


  • 硬核要求:答案极少来自原文!OCR-Reasoning (仅 2.3%) vs. 现有基准(答案多可从图片中进行“复制”)。


  • 典型案例对比:

    • 老基准:这件衣服加个多少” → 读取商标上的数字

    • OCR-Reasoning:买衣服的时候 3 件可以打 6 折,那么某顾客买三件衣服打折后最低单价?” → 需整合价格、规则、商品信息,推理计算!


全覆盖六大核心推理能力:

  • 空间推理:图文混排的布局、位置关系理解。

  • 数值分析:计算成本效益、增长率、财报数据、日程规划。

  • 枚举推理:按条件计数图文元素。

  • 数学推理:解决函数图、几何题、统计问题(大多数题目手抄获取,更贴合真实 OCR 场景!)。

  • 逻辑推理:批判性思维,基于图文进行推论。

  • 多学科推理:应用物理、化学知识解决图文问题(大多数题目抄获取!)。



评测结果:顶尖模型也“不及格”,三大关键发现!

研究团队对主流开源 & 闭源模型进行了全面“大考”,包括:豆包-1.5-Vision-Pro、通义千问 Qwen2.5-VL、Kimi-VL-Thinking、GPT-4o、Claude-3.7、Gemini-2.0-flash、DeepSeek-R1 等


发现 1:没“眼睛”真不行!视觉信息是 OCR 推理的命脉


同一个语言模型(Qwen2.5-32B),纯文本版DeepSeek-R1+OCR)准确率仅 26.5%,而多模态版Qwen2.5-VL-32B)飙升至 36.2% —— 差距高达 9.7 个百分点!证明图像输入对文本丰富图像推理至关重要


发现 2:RL 训练需
针对 OCR 推理进行优化


基于 Qwen2.5-VL-7B 进行 RL 训练的模型(如 VLAA-Thinker, MM-Eureka),数学和逻辑推理能力显著提升,但空间和数值分析能力反而下降这提示:亟需设计更适配 OCR 推理的 RL 算法。


发现 3:天花板还很高!现有技术远未成熟

  • 文档理解“尖子生”豆包-1.5-Vision-Pro (DocVQA 96.7%, ChartQA 87.4%),在 OCR-Reasoning 上准确率竟不足 50% (46.8%)!

  • GPT-4o (44.4%)Gemini-2.0-flash (39.3%) 同样表现挣扎。

  • 结论:同步处理视觉文本、理解语义、进行逻辑推理,当前模型面临的巨大挑战!


CoT(思维链)有用吗? 


普遍有效:CoT 提示能持续提升大多数模型性能(如 Qwen2.5-VL-32B +3.2%, GPT-4o +4.2%)。特例是 VL-Rethinker-7B 用了 CoT 反而掉分!原因可能是其内置反思机制与额外 CoT 提示冲突,破坏了训练-测试一致性。


推理过程质量评估:

  • 使用 LLM 评估模型推理路径质量。

  • 整体排名与答案准确性排名相似,但 Gemini 和 Claude-3.7-Sonnet 推理过程质量评分相对更高

  • 典型案例:Gemini-2.0-Flash 推理过程基本合理(获高分),但因微小计算错误导致答案错误。这说明高质量的推理过程同样重要!




便捷使用:一键评测,加速研究!


OCR-Reasoning 评测代码已无缝集成至 VLMevalkit 工具包,支持研究者一键进行评估,极大提升效率!



结语:OCR推理的新基准来了!

OCR-Reasoning 基准的发布,填补了 OCR 场景下复杂推理能力评估的空白,为多模态模型的研发与优化提供了关键标尺方向指引


评测结果揭示了一个事实:即使是当前最顶尖的模型,在面对真实世界复杂的 OCR 推理任务时,也才刚刚起步,挑战巨大,潜力无限!



(文:PaperWeekly)

发表评论