S3PO-GS团队 投稿
量子位 | 公众号 QbitAI
户外SLAM的尺度漂移问题,终于有了新解法!
香港科技大学(广州)的研究的最新成果:S3PO-GS,一个专门针对户外单目SLAM的3D高斯框架,已被ICCV 2025接收。
项工作的亮点在于首次实现了RGB单目SLAM的全局尺度一致性。在Waymo、KITTI和DL3DV三大户外基准测试中,S3PO-GS不仅在新视角合成任务中刷新了SOTA纪录,更是在DL3DV场景中将跟踪误差降低了77.3%。

这篇文章做了什么?
在自动驾驶、机器人导航及AR/VR等前沿领域,SLAM技术的鲁棒性直接影响系统性能。
当前基于3D高斯(3DGS)的SLAM方案虽在室内场景表现卓越,但在仅依赖RGB输入的无界户外环境中仍面临严峻挑战:
单目系统固有的深度先验缺失导致几何信息不足,而引入单目深度估计或端到端点云模型(如MASt3R)作为几何先验时,又因帧间尺度不一致性引发系统级尺度漂移,该问题在复杂户外场景尤为突出。
针对这一双重瓶颈,香港科技大学(广州)研究团队提出创新框架S3PO-GS ,首次实现RGB单目SLAM的全局尺度一致性。
该方案通过三大核心技术突破:
首先开发自洽跟踪模块,利用3DGS渲染生成尺度自洽的3D点云图,并与当前帧建立精准的2D-3D对应关系,从而消除位姿估计中的漂移误差;
其次设计动态建图机制,创新性提出基于局部patch的尺度对齐算法,动态校准预训练点云图(MASt3R)与3DGS场景的尺度参数,解决尺度模糊问题;
最后构建联合优化架构,通过点云替换策略与几何监督损失函数,同步提升定位精度与场景重建质量。
在Waymo、KITTI及DL3DV三大户外基准测试中,S3PO-GS展现出显著优势:其跟踪精度超越所有现有3DGS-SLAM方法,尤其在DL3DV场景中将误差降低77.3%;同时在新视角合成任务中刷新SOTA纪录,Waymo数据集PSNR指标达到26.73,为无界户外场景的实时高精度重建树立了新标杆。
基本原理

在联合优化阶段,系统基于对齐点图同步优化高斯地图参数与相机位姿,形成定位与重建相互强化的闭环:
相机位姿优化为场景重建提供精确视角约束,而动态校准的高斯地图则为后续帧跟踪提供几何一致性保障,从而实现高精度定位与高保真重建的协同跃升。
动态建图机制
此算法的核心洞见在于:
一方面,3DGS渲染点图
另一方面,预训练点图
针对此矛盾特性,本工作提出动态双向校准机制:
首先实施基于局部patch的尺度对齐——通过块相似性分析筛选空间分布一致的高置信度点,建立
继而执行几何-尺度解耦融合,以校正后的点图
其中尺度对齐算法详细流程如下:

实验效果展示
定量对比

新视角渲染对比
如下图所示,本方法渲染的高保真图像可精准捕捉车辆纹理、街道细节与建筑结构。在深度变化复杂的区域(如树枝分叉处、路边车辆堆叠场景),渲染的深度图精度显著提升。

△Waymo (上三行)和KITTI (下三行)

△DL3DV
追踪轨迹对比
如下图所示在剧烈视角变动场景下,本方案展现出卓越的抗视角剧变能力,位姿追踪稳定性显著超越现有3DGS SLAM方法。

总结
本研究提出了S3PO-GS,一个面向户外单目场景的三维高斯泼溅(3D Gaussian Splatting)SLAM框架,具备尺度自洽点云图(scale self-consistent pointmap),以应对户外场景中常见的尺度漂移和几何先验缺失问题。
通过引入一个尺度自洽的3DGS点云图跟踪模块,将位姿估计所需的迭代次数减少至传统方法的10%,并在如Waymo等复杂数据集上实现了精确的相机追踪。
此外,提出了一种基于局部补丁匹配的动态patch映射机制,有效解决了单目深度尺度模糊的问题,并显著提升了重建质量。
实验结果表明,本方法在3DGS SLAM的跟踪精度和新视角合成方面设立了新的基准。未来的工作将探索回环检测和大规模动态场景优化,以拓展该方法在户外SLAM中的应用边界。
原文链接:https://arxiv.org/abs/2507.03737
代码链接:https://github.com/3DAgentWorld/S3PO-GS
官方主页:https://3dagentworld.github.io/S3PO-GS/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
🌟 点亮星标 🌟
(文:量子位)