ICCV 2025 Ross3D:让多模态大模型真正“看懂”三维世界!

↑ 点击蓝字 关注极市平台
作者丨王淏辰@知乎(已授权)
来源丨https://zhuanlan.zhihu.com/p/1926639647464887612
编辑丨极市平台

极市导读

 

重构式视觉指令微调 + 3D感知自监督,横扫5项3D SOTA! >>加入极市CV技术交流群,走在计算机视觉的最前沿

Paper: https://arxiv.org/pdf/2504.01901

Project Page: https://haochen-wang409.github.io/ross3d/

Training & Evaluation Code: https://github.com/haochen-wang409/ross3d

Huggingface Checkpoint: https://huggingface.co/HaochenWang/llava-video-qwen2-7b-ross3d

大家好,今天想跟大家分享一下我们最新在 ICCV 2025 多模态理解领域的重要突破 —— Ross3D,以及这背后不为人知的故事。

从 ROSS 到 ROSS3D:一次 “水土不服” 的尝试

发现视觉监督对 2D 多模态模型至关重要。通过 “vanilla reconstruction” 任务(让模型还原完整图像),模型能更敏锐地捕捉细节,在图像问答、细粒度识别等任务上效果显著。

Ross 的核心思想:将 visual outputs 拿回来做图像重建

但当我们把这套逻辑套用到 3D 场景时,却发现完全行不通

  • 3D 数据太稀缺:没有像 2D 那样海量的图文对;
  • 理解维度更复杂:不仅要懂物体间的局部关系,还要把握全局布局;
  • “vanilla reconstruction” 失效:单纯还原单视角图像,根本学不会 3D 空间关联。

破局点:给 3D 模型 “定制训练任务”

我们意识到,不是视觉监督没用,而是 3D 需要专属的监督形式。于是 Ross3D 的核心思路诞生了:设计 3D-aware 的自监督任务,直接针对 3D 理解的痛点。

Ross3D 的核心思想

跨视角重建:让模型学会 “换位思考”

故意掩盖部分视角,强迫模型通过其他视角的重叠信息还原被遮挡的画面。
这就像让模型练习 “从不同角度看同一物体”,对 3D 视觉定位(比如 “找出桌子右侧的黑色椅子”)至关重要。

全局视角重建:给模型一个 “上帝视角”

让模型从所有视角中提取信息,还原出整个场景的鸟瞰图(BEV)。
这相当于逼模型 “画一张俯视图”,对 3D 问答(比如 “我面对桌子时,书架在身前还是身后”)帮助极大。

✅ 技术实现

  • 基于 LLaVA-Video-7B 架构,新增轻量去噪网络
  • 输入:带深度的多视角视频(32帧 × 384×384)
  • 监督信号:重构目标(遮罩视图/BEV)的潜空间特征(FLUX-VAE编码)
Ross3D 的技术细节

效果超出预期:从 benchmark 到实际价值

5大权威基准(SQA3D/ScanQA/Scan2Cap/ScanRefer/Multi3DRefer)上超越所有专家模型与3D LMM:

更惊喜的是半监督实验:用 50% 带文本标注的数据训练,再用 50% 无标注的 3D 视觉数据做 Ross3D 任务,结果与 100% 文本监督的基线可比!这意味着,当 3D 标注数据稀缺时,我们的方法能 “无中生有” 地挖掘价值。

为什么说Ross系列是方法论革新?

1️⃣ Ross (ICLR 2025) :

  • 发现 2D图像理解 的瓶颈在于细粒度感知缺失
  • 提出 “重构式视觉监督”:用去噪网络重建原图特征,显著提升细节理解

2️⃣ Ross3D (ICCV 2025) :

  • 揭示 3D场景理解 需 任务相关的代理任务设计
  • 抛弃Vanilla Reconstruction(直接重建原图无效),定制 跨视图+全局视图重建
  • 核心洞见:视觉监督信号必须匹配下游任务特性!

从Ross到Ross3D,我们证明:要让大模型突破认知边界,必须设计任务导向的视觉监督目标,而非简单移植2D范式!

最后想说:比结果更重要的思考

Ross 和 Ross3D 合在一起,其实是在讲一个简单的道理:
视觉监督是多模态理解的 “燃料”,但燃料的形态必须适配 “引擎”。2D 需要细粒度还原,3D 需要空间关联训练,未来其他场景(比如动态 3D)可能也需要新的监督形式。

延伸资源

Ross (ICLR 2025) :

论文:https://arxiv.org/pdf/2410.09575

知乎解读:https://zhuanlan.zhihu.com/p/19997220245


(文:极市干货)

发表评论