一张图片找出你在哪?o3-like 7B模型玩网络迷踪超越一流开闭源模型!


Github 仓库:

https://github.com/TheEighthDay/SeekWorld

Huggingface 模型:

https://huggingface.co/TheEighthDay/SeekWorld_RL_PLUS

Huggingface 数据集:

https://huggingface.co/datasets/TheEighthDay/SeekWorld



有关 SeekWorld

为了提高多模态大语言模型(MLLMs)的性能,近期一些方法尝试通过图像数学题、图表分析和逻辑谜题等任务来激发模型的纯推理能力;也有一些方法聚焦于通过传统视觉检测任务(如目标检测、计数、分割)来增强模型的低层感知能力。


此外,还有研究致力于在推理过程中以文本形式重新感知视觉内容。然而,一个关键局限在于:当前的 MLLM 在进行视觉推理时仍完全依赖于纯文本信息


OpenAI 的 ChatGPT-o3 的出现,实现了基于思维链的视觉推理,允许模型在推理过程中动态操作图像(如旋转、缩放、变换等)。


例如,“but I’ll zoom in a bit just to be absolutely sure!” 这一表达体现了其交互式的推理能力,极大提高了推理过程中的感知能力,使其能够挖掘细致、模糊活容易被忽视的视觉线索,构建了一条连贯的视觉推理证据链。


其中官方有一个又去示例是通过一张图片定位到图片拍摄地区曾经拍摄过的电影,在这样的场景中我们需要挖掘视觉线索——推理——挖掘视觉线索——再推理… 直到得出最终结果。因此,我们认为 “Visual Clue-Tracking” 是对这一能力的贴切概括。


因此我们提出了一项新任务:地理定位推理(Geolocation Reasoning)。该任务要求模型在感知视觉信息的同时,推理出图像中视觉语义所隐含的高级逻辑关系,从而确定图像的拍摄地点,极其适合用于实现 o3-like 的视觉线索跟踪推理。


你可以通过 GeoGuess(https://www.geoguessr.com)和图寻等“猜图地点”类游戏更实际感受这一任务。围绕该任务我们构建了一个基于规则的地理定位强化学习数据集 SeekWorld

https://huggingface.co/datasets/TheEighthDay/SeekWorld


该数据集包含两个训练集,其中一个(Train-Clue-Tracking)包含 50 条从 o3 中收集的针对视觉线索跟踪的详细推理过程数据(持续扩充中),另一个(Train-No-Process)则包含 8541 条不含推理过程的普通样本数据


前者用于模型 Cold-Start 阶段的 SFT 训练,后者则用于 RL 训练。我们还提供了两个测试集,用于综合评估模型的性能。


目前,我们已基于 Train-No-Process 数据,并以 Qwen2.5-7B-VL-Instruct 为基础模型,通过强化学习训练得到一个专门的视觉地理定位模型 SeekWord-7B

https://huggingface.co/TheEighthDay/SeekWorld_RL_PLUS


超过了一众的开闭源一流模型包括不具备推理能力的(Doubao-1.5-vision-pro-32k-250115 [1]、GPT4o-240806 [2])和具备推理能力的(QvQ-72B-max-2025-03-25 [3]、Gemini-2.0-flash-thinking-exp-01-21 [4])。


我们正在持续推进以下工作,欢迎关注我们的 Github 仓库:


  • 继续扩充 Cold-Start SFT 数据集的规模

  • Cold-Start SFT(Train-Clue-Tracking)+ RL(Train-No-Process)训练

  • 评估 o3 在 SeekWorld 上的效果

  • 评估不同感知与推理 benchmark 的效果



举个例子感受一下地理定位推理的魅力

首先,我们可以跟随 o3 的推理过程,感受一下视觉推理的强大能力:


User prompt:猜猜这张图片在哪拍摄?

嗯,我考虑一下,可能需要放大右上角的标志,看看是否能清楚地看到中文字符或其他信息。我要把这个区域裁剪一下,以便能更好地读取信息。这样做应该有助于我更好地理解和解答用户的问题。

这个标志上有一些中文的艺术字体,我可以把下方裁剪一下,这样可以更清楚地看到剩余的部分。这样能够帮助我更好地理解标志上的信息,确保不会漏掉细节。

嗯,如果我现在就裁剪,可能会错过文本的部分。为了确保可以看到完整的信息,我考虑调整裁剪位置,确保包括顶部标志区域。这样可以更好地捕捉到所有的细节,避免遗漏任何需要查看的内容。…

我看到大字下面是 “HON”,可能是 “HONGF… HOTP…”,也许是‘洪崖洞火锅’。洪崖洞位于重庆,有红灯笼、沿江步道和火锅店。这些元素让我判断,这个招牌可能就是“洪崖洞火锅”。“洪”字的设计像水“氵”,与洪崖洞的特色匹配。大字是“洪”,下面是 “HONGYADONG HOTPOT”,所以我推测位置是在重庆市渝中区的洪崖洞景区。


这座扭曲的建筑可能是重庆的“零号大厦”?其实它就在解放碑附近。远处看到的可能是“重庆世界金融中心”,或者是“渝中区的扭曲建筑”。虽然附近也有“重庆威斯汀解放碑”,但没有扭曲的设计和顶部皇冠。洪崖洞旁边的高楼也可能是南滨路,面对的是“来福士广场”大厦。大字旁边的“洪”字标志明确指向重庆渝中区。不过,也有“红星火锅”的可能。接下来,我将再次放大检视大字下方的文字。…


这张模糊的、信息量很少的图片正是拍摄于中国重庆市洪崖洞景区。


下面我们再展示一张图片通过 SeekWord-7B 模型推理得到的结果:

<思考>


这张图片描绘了一个传统的中国街道场景,有木质建筑、红灯笼以及墙上的汉字。建筑的结构和风格,再加上红灯笼和文字等中国传统元素的存在,表明这是中国一个村庄或城镇的场景。这些建筑的设计和布局具有中国古代城镇的特点,这些城镇往往具有历史意义,并且以其保存完好的传统建筑而闻名。


汉字的存在以及建筑风格表明,这里很可能在中国,具体来说是在一个传统建筑较为常见的地区。建筑风格和整体氛围可能暗示着像丽江这样的地方,丽江以其保存完好的古城而闻名,它位于云南省,该省以其丰富多样的文化遗产和历史遗迹而著称。


鉴于其建筑风格和文化元素,合理推断这张图片来自中国一个有着丰富历史和传统建筑的地区。建筑的独特风格以及中国传统元素的存在表明,这里可能是云南省的一部分,云南省以其历经岁月保存下来的古镇和村庄而闻名。


因此,基于建筑风格和文化元素,合理得出结论:这张图片拍摄于中国,具体来说是在中国的一级行政区之一 —— 云南省。


</ 思考 >

< 答案 >

中国,云南

</ 答案>


这张正是云南的沙溪古镇,模型给出了详细推理的流程,并定位到了云南,我们制作了一个 demo 网站,上传你的图片来试试吧!


Demo:

https://huggingface.co/spaces/TheEighthDay/SeekWorld_APP



PK 开闭源的一流模型

带有 🔒 标识的模型是专有闭源模型,而带有 🧠 标识的模型则具备增强的推理能力。


我们目前尚未完成在 Train-Clue-Tracking 上的 Cold-Start SFT 训练,Direct SFT 和 Direct RL 分别指在 Train-No-Process 上直接进行 SFT 和 RL 训练。


相比于 Qwen-2.5-7B-VL,SeekWorld-7B 在 RL 训练中尝试了两项优化。其中,难度采样有效地提高了测试的准确率。长度激励仅增加了推理过程的长度,而没有提高准确率。不过幸运的是,它能更好地展示中间推理过程。我们也在尝试使用 GRM 进行更好的过程监督。


  • 难度采样:我们在训练集中对不同难度级别的问题进行了采样。具体来说,由于数据集中难题数量相对较多(5655 道),我们将简单题(1945 道)和中等难度题(941 道)的数量翻倍,分别扩充到 3890 道和 1882 道。

  • 长度激励:我们尝试引入了一种鼓励增加推理长度的奖励机制。奖励值设定为字符数量乘以 0.001 ,奖励值最高为 1.0。 



SeekWorld 数据集已经开源

针对图片定位数据,我们已经开源了包含以下特点的数据集:


  • 包含视觉推理过程:第一个包含 o3 模型视觉思维链或者视觉线索跟踪能力的数据集。

  • 全球多样化采样:涵盖了来自世界各地广泛的场景集合,确保模型能够对多样的文化、地形和背景环境实现强大的泛化能力。

  • 针对 rule-based RL 优化的图像-标签对:对于图片清洗了包含位置信息的水印,对于地理坐标标签增加了一级行政规划区的别名,防止模型被错误惩罚。

  • 分层难度架构:包含三个不同的推理难度层级 —— 简单、中等和困难,以逐步挑战和评估模型在地理定位方面的能力。



贡献 SeekWorld 测试集

我们热烈任何感兴趣的同学欢迎参与到 SeekWorld 项目中来!如果您对地理定位推理感兴趣,您可以向我们发送一张具有挑战性的测试图片-答案对,以此来帮助我们构建一个更全面的评估数据集。 贡献方式如下:


1. 拍摄一张带有地理线索但又不是很容易就能识别出位置的照片(例如,街景、生活照片、建筑、自然景观)。


2. 确保该图片对应的是一个真实的地点(例如,具体到国家和一级行政区)。如果可能的话,请同时提供该地点的经纬度。并确保图片中不包含任何个人信息。


3. 请在邮件主题中注明:[SeekWorld Crowd Contribution]。然后将图片发送至我们的邮箱地址:tikibi001@163.com。


(文:PaperWeekly)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往