ACM MM2025 Oral RemoteSAM:轻量统一的遥感视觉模型

↑ 点击蓝字关注极市平台

来源丨我爱计算机视觉

编辑丨极市平台

极市导读

本文提出了一种轻量级的遥感视觉模型，通过构建大规模遥感数据集 RemoteSAM-270K 和统一的模型架构，实现了从像素级到图像级的多种视觉任务，显著提升了遥感视觉任务的效率和性能。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

论文介绍

题目：RemoteSAM: Towards Segment Anything for Earth Observation

会议：33rd ACM International Conference on Multimedia (ACM MM 2025)

论文：https://arxiv.org/pdf/2505.18022

数据&模型：https://github.com/1e12Leon/RemoteSAM

年份： 2025

单位： 河海大学（RemoteCLIP作者团队）、香港科技大学、东南大学

地球观测任务（如灾害监测、城市发展）需处理多粒度视觉任务（像素级分割、区域检测、图像分类）。但当前主流范式存在两大瓶颈：

RemoteSAM-270K：27万组高质量图文掩码三元组，覆盖297种目标类别（建筑、农田、船舶等）和16种属性（颜色、空间关系等）。
广义指代表达式：支持单目标、多目标、零目标的指代分割指令。
自动化构建：利用VLMs生成描述 + 多教师模型定位目标 + SigLIP过滤噪声。

以指代分割（RES）为核心，通过像素级掩码的决策级转换，统一支持8类视觉任务： – 像素级：指代分割、实例分割； – 区域级：目标检测、视觉定位； – 图像级：多标签分类、场景分类、计数、描述生成。
轻量设计（仅180M参数），抛弃冗余的LLM模块，效率大幅度提升。

1.构建步骤

2.语义覆盖度术语库RSVocab-1K

为衡量构建数据的语义覆盖的丰富性，构建了用于衡量遥感数据集语义覆盖情况的术语库RSVocab-1K，包含了三种层级共1000种细粒度遥感目标类别。有助于后续数据集和模型的通用性分析。

核心思想：

“一切任务始于分割”：像素级任务的掩码作为视觉最基础的输出单元，可以很顺畅的向上兼容到区域级任务和图像级任务。为了便于灵活调整，模型还需要集成自然语言理解功能。这种方法类似于“指代表达分割”任务的架构。

任务转换方法：

RemoteSAM在像素级、区域级和图像级任务上显著优于现有主流遥感基础模型，尤其在像素级任务上表现突出。其统一架构不仅提升了任务适应性，还大幅减少了模型参数量和训练成本。

（文：极市干货）