多模态模型挑战北京杭州地铁图！o3成绩显著，但跟人类有差距

ReasonMap团队投稿
量子位 | 公众号 QbitAI

近年来，大语言模型（LLMs）以及多模态大模型（MLLMs）在多种场景理解和复杂推理任务中取得突破性进展。

然而，一个关键问题仍然值得追问：多模态大模型（MLLMs），真的能“看懂图”了吗？

特别是在面对结构复杂、细节密集的图像时，它们是否具备细粒度视觉理解与空间推理能力，比如挑战一下高清地铁图这种。

为此，来自西湖大学、新加坡国立大学、浙江大学、华中科技大学的团队提出了一个全新的评测基准ReasonMap。

这是首个聚焦于高分辨率交通图（主要为地铁图）的多模态推理评测基准，专为评估大模型在理解图像中细粒度的结构化空间信息方面的能力而设计。

结果发现，当前主流开源的多模态模型在ReasonMap上面临明显性能瓶颈，尤其在跨线路路径规划上常出现视觉混淆或站点遗漏。

而经强化学习后训练的闭源推理模型（如 GPT-o3）在多个维度上显著优于现有开源模型，但与人类水平相比仍存在明显差距。

在面对不同国家地区的地铁图中，四个代表性 MLLM（Qwen2.5-VL-72B-I（蓝色）、 InternVL3-78B（黄色）、 OpenAI o3（绿色）和 Doubao-415（红色））的准确率如下图所示。左图为短问题，右图为长问题。

看得出来北京、杭州的地铁图难倒了一大片模型。

每个城市都标有相应的地铁图难度。测试集样本分布如下（奥克兰 32 个样本，洛杉矶 34 个样本，迈阿密 7 个样本，里斯本 35 个样本，日内瓦 18 个样本，北京 40 个样本，杭州 39 个样本，布达佩斯 17 个样本，新加坡 39 个样本，罗马 40 个样本，多伦多 11 个样本）。

评测基准ReasonMap

与传统视觉问答（VQA）不同，ReasonMap 更强调图像中的空间关系和路线推理，具备以下几个特点：

高分辨率挑战：数据集中每张地图图像平均分辨率高达 5839 × 5449，远高于现有视觉推理任务，对模型的图像编码能力提出更高要求。

难度感知设计：我们为图像设置了难度标签，并保证问答对在不同难度层级中的均衡分布，帮助更全面地评估模型能力。

多维度评估体系：不仅考察模型回答的准确性，还对模型路线的质量包含路径合理性和换乘策略等角度进行细粒度评估。

贴近真实使用场景：任务直接基于图像推理，不依赖结构化中间件，更接近人类使用地图时的思维方式。

为了构建这个大规模、高质量的评测数据集，团队设计了一套高效的半自动化标注流程，以极低的人力成本，从国内外多个城市的地铁图中自动生成推理任务和问答对。

具体优势包括，它可以支持题目难度调控，团队为不同问题设计了难度等级，便于模型评估和对比分析；以及多样化问题模板，覆盖单线直达、多线换乘、路径最短、站点经过等多种典型场景；此外，它还具有高效扩展性，标注与验证流程可快速适配新城市，实现低成本规模扩展。

评估结果

ReasonMap 的核心目标是评估多模态大模型在细粒度视觉推理任务中的真实能力，尤其关注近年来兴起的基于强化学习后训练（Reinforcement Learning Fine-tuning）的长思考模型。

团队在 15 个领先的多模态大模型上进行了系统测试，涵盖了多个开源与闭源体系，包括：

强推理能力模型，如 GPT-o3、Gemini 2.5、Doubao 1.5 Pro、QvQ-72B、Skywork-R1V等；

通用多模态模型，如 GPT-4o、Qwen-VL2.5、InternVL 3等。

通过将高分辨率图像与空间推理任务结合，团队对这些模型的路径规划正确性、合理性和视觉理解粒度进行了深入对比分析。同时，团队进一步将视觉输入mask掉，分析纯文本输入下的模型表现。

同时也对推理错误案例进行了细致分析，并将其进行系统分类，涵盖视觉混淆、格式错误、幻觉、拒绝回答等多种类型。这些分析揭示了当前多模态大模型在复杂图像理解中的薄弱环节，为未来模型在细粒度视觉推理方向的优化提供了明确的改进方向和实践参考。

实验发现，ReasonMap 有效放大了多模态模型在真实细粒度视觉推理任务中的差距，其显示出强区分力，成为判断模型是否具备真实视觉-空间推理能力的重要基准工具。

论文链接：https://arxiv.org/abs/2505.18675
项目主页：https://fscdc.github.io/Reason-Map/
代码：https://github.com/fscdc/ReasonMap
数据集：https://huggingface.co/datasets/FSCCS/ReasonMap

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

🌟 点亮星标 🌟

科技前沿进展每日见

（文：量子位）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

ReasonMap团队 投稿量子位 | 公众号 QbitAI

评测基准ReasonMap

评估结果

发表评论 取消回复

下载每时AI手机APP

ReasonMap团队投稿
量子位 | 公众号 QbitAI

发表评论取消回复