ICML 2025丨慕尼黑工业大学等基于SD3开发卫星图像生成方法,构建当前最大规模遥感数据集

作者:哇塞

编辑:李宝珠

转载请联系本公众号获得授权,并标明来源


德国慕尼黑工业大学和瑞士苏黎世大学的团队提出以地理气候提示为条件并使用 Stable Diffusion 3 (SD3)生成卫星图像的新方法,并创建了一个迄今为止最大、最全面的遥感数据集 EcoMapper。


卫星图像是通过卫星遥感技术获取的地球表面影像,它通过建立「太空视角」将地球信息数字化,实现了大范围检测、动态追踪和数据支撑。在人们的日常生活中,无论是宏观的环境治理还是微观的城市生活都已离不开它,比如在林业监测中,通过卫星图像可以快速圈定森林分布范围,计算不同林种覆盖比例,检测因砍伐、种植、病虫灾害等导致的森林覆盖变化等。


然而,卫星监测容易受到多重因素的影响,致使其性能和应用效果在一定程度上大打折扣,云层覆盖的干扰影响尤甚。如在云层多发地区,受此影响卫星监测可能会中断数天甚至数周,这不仅妨碍了卫星的实时动态监测,同时也提出了将卫星图像与气候数据相结合以提升预测准确性的新要求。人工智能技术和机器学习算法突飞猛进的发展为解决这一要求提供了契机,但目前大多数方法是根据特定任务或具体区域而设计,缺乏推广到全球应用的普遍性。


为解决上述问题,来自德国慕尼黑工业大学和瑞士苏黎世大学的团队提出以地理气候提示为条件,并使用 Stable Diffusion 3 (SD3)生成卫星图像的新方法,同时创建了一个迄今为止最大、最全面的遥感数据集 EcoMapper。该数据集从 Sentinel-2 收集了来自全球 104,424 个地点的超 290 万张 RGB 卫星图像数据,涵盖 15 种土地覆盖类型和相应气候记录,为采用微调的 SD3 模型进行两种卫星图像生成方法奠定了基础。通过将合成图像生成和气候与土地覆盖数据相结合,所提方法推动了遥感领域生成式建模技术的发展,填补了受持续云层覆盖影响地区的观测空白,为全球气候适应和地理空间分析提供了新工具。


研究成果以「EcoMapper: Generative Modeling for Climate-Aware Satellite Imagery」为题,入选 ICML 2025。


研究亮点:
* 构建了包含超 290 万张卫星图像的迄今为止最大、最全面的遥感数据集 EcoMapper 

开发了一个文本-图像的生成模型,基于微调的 Stable Diffusion 3 ,利用包含气候和土地覆盖细节的文本提示,生成特定区域的逼真合成图像

* 开发了一个利用 ControlNet 的多条件(文本+图像)模型框架,实现气候数据映射或生成时间序列,模拟景观演变过程


论文地址:

https://go.hyper.ai/VFRWu

关注公众号,后台回复「EcoMapper」获取完整 PDF


数据集下载地址:

https://go.hyper.ai/uhOIw


更多 AI 前沿论文:
https://go.hyper.ai/owxf6

数据集:迄今为止最大、最全面遥感数据集

EcoMapper 为迄今为止最大、最全面的遥感数据集,由 2,904,000 张带有气候元数据的卫星图像组成,数据集从全球 104,424 个地理点位采样,涵盖 15 种不同的土地覆盖类型。如下图所示:



数据集示例



各批次年度观测数据量及总图像量(注意:由于土地覆盖分布的拟合,一些位置丢失)


其中,训练集包含 98,930 个地理点位,每个点位观测期为 24 个月。研究人员根据云量最少的日子,在两年时间中针对每个点位每月选择一次观测,最终每个点位得到 24 张图像的序列。两年的观测期随机分布于 2017 年至 2022 年之间。


测试集包含 5,494 个地理点位,每个地点观测期为 96 个月(8 年),时间跨度从 2017 年至 2024 年,同样为每月监测一次。


从空间上来看,每次观测的空间覆盖面积约为 26.21 平方公里,整体数据集覆盖约 2,704,000 平方公里,占到地球陆地总面积的约 2.05%。这些数据确保了评估中足够的空间和时间独立性,能够对模型在不同地区和看不见的气候条件下的泛化进行稳健的评估。


除此之外,每个采样位置都丰富了元数据,包括地理位置(经纬度)、观测日期(年月份)、土地覆盖类型和云覆盖率,以及来自 NASA Power 的月平均温度、太阳辐射和总降水量。这些数据显示了对农业、林业、土地覆盖及生物多样性的益处。

模型架构:文本-图像生成模型和多条件生成模型

本次研究的目标是合成以地理和气候元数据为条件的卫星图像,从而实现对环境条件的真实预测。为此,研究人员必须解决两个关键任务:文本到图像的生成和多条件图像生成。


研究人员评估了两种生成模型将气候元数据整合到卫星图像合成中的能力:


第一个为 Stable Diffusion 3,这是一种多模态潜在扩散模型,整合了 CLIP 和 T5 文本编码器,能够实现灵活的提示条件设定。研究人员使用采集到的数据集对 Stable Diffusion 3 进行了微调,使其能依据地理、气候和时间元数据的逼真卫星图像。


第二个为 DiffusionSat,这是一种专门用于卫星图像的基础模型,基于 Stable Diffusion 2 进行了扩展,增加了专门的元数据嵌入层用于数值条件设定。与一般的扩散模型相比,该模型专为遥感任务设计,能够对关键的空间和时间属性进行编码,具备超分辨率、图像修复和时间预测等功能。


针对文本到图像生成任务,研究人员对 Stable Diffusion 3 和 DiffusionSat 进行了多种配置的对比测试,包括微调和未微调后的模型,并在不同分辨率下进行实验:


基线模型:在 512 x 512 分辨率下对两种模型进行未微调评估。 

微调模型(-FT):在 512 x 512 分辨率下,使用气候元数据对两种模型进行微调后评估。

* 高分辨率 SD3 模型:在 1024 x 1024 分辨率下,使用气候元数据对 SD3 进行微调并测试,标记为 SD3-FT-HR。


针对多条件图像生成任务,研究人员选用经过 LoRA(低秩适应)技术增强的微调 Stable Diffusion 3 模型执行多条件图像生成任务。该模型在 512 x 512 分辨率下训练,作为生成高质量且与上下文相关图像的基础。研究运用 ControlNet 技术构建了双条件机制:
* 所谓 ControlNet 即通过将明确的空间控制集成到生成过程中,增强了扩散模型。这种设计确保了控制块对主块的初始影响最小,其功能类似于跳过链接。


* 卫星图像作为控制信号:以前几个月的卫星图像作为控制信号,维持生成图像的空间结构,确保地貌、城市布局和其他地理特征保持不变。如此一来,模型能融入随时间的变化,借此反映现实世界的环境变化。 

* 气候提示:借助文本条件机制,明确生成卫星图像的气候和大气条件。


研究通过将这两个调节因素相结合,使模型能够生成融合气候变化的真实卫星图像,同时保持空间一致性。这种方法还支持时间序列生成,能够模拟气候条件不断变化下的景观演变。如下图所示:



融合 Stable Diffusion 3 和 ControlNet 的框架,实现了多条件卫星图像生成


在提示结构方面,为有效进行卫星图像生成,研究人员设计了两种提示类型引导卫星图像生成,即空间提示(Spatial Prompt)和气候提示(Climate Prompt),前者为用于编码基本元数据,涵盖土地覆盖类型、位置、日期和云量等信息,确保生成的图像与地理和时间背景保持一致;后者在空间提示的基础上,融入月气候变量(温度、降水量和太阳辐射),为图像生成提供更丰富的环境条件信息。这两种提示都利用 Stable Diffusion 3 的文本编码器,空间信息由 CLIP 处理,气候数据由 T5 编码器处理。

实验结果:超越基线模型的生成性能,但仍有提升空间

研究人员设计了多维实验体系,通过横向和纵向多重对比和实验,验证了所设计的生成模型在生成气候感知卫星图像时的性能。


首先,研究人员明确了 5 个已建立的指标,包括 FID(Fréchet Inception Distance)、LPIPS(Learned Perceptual Image Patch Similarity)、SSIM(Structural Similarity Index)、PSNR(Peak Signal-to-Noise Ratio ) 和 CLIP Score。其中,FID 和 LPIPS 评估图像分布相似度和感知差异,SSIM 和 PSNR 测量结构一致性和重建质量, CLIP Score 评估文本-图像对齐。


在文本到图像生成方面,研究人员通过比较 Stable Diffusion 3 和 DiffusionSat 及其微调版本(SD3-FT 和 DiffusionSat-FT)和 SD3-FT-HR 在 5500 个地理点位上的表现,验证了所设计模型的有效性。


如下图所示。SD3 和 DiffusionSat 的基线模型评估分数最低,但后者表现明显优于前者,这显示出遥感预训练的优势;而所有微调模型的指标均显著提升,SD3-FT 在 CLIP、SSIM、PSNR 上的表现更优,DiffusionSat-FT 在 FID 和 LPIPS 上更出色。SD3-FT-HR 的 FID 最低(FID 值越低表示真实性越高),为 49.48,表明了其生成图像具有更精细的细节。



文本到图像生成模型的定量比较


定性结果分析表明了所设计的模型能捕捉农田、草原的规则纹理和山地地形特征,尤其是 SD3-FT-HR 在植被密度变化和高分辨率细节上表现更优异。


在气候敏感性分析中,如下图所示,模型生成的植被密度与气候变化显著相关。研究对表现出极端天气条件的样本进行了 SD3-FT 模型的定量压力测试,结果显示高温、高辐射条件下,模型生成的图像 FID 较低(如高辐射 FID 为 107.34),植被相应更明显;低温、低辐射时则反之,模拟效果稍差。



SD3-FT 在极端气候条件下为不同地区生成的卫星图像



SD3-FT 在极端天气条件下的性能


在多条件图像生成任务中,结合 ControlNet 的多条件生成在所有指标上均优于文本到图像模型,如 SD3 ControlNet 的 FID 为 48.20。另外,生成图像和实况图像还表现出了很强的空间对齐,保持了关键的地理特征,同时结合了特定气候的变化。如下图所示:



SD3 ControlNet 模型的指标



不同季节变化下多条件图像生成中,实况图像、生成图像和条件图像的比较


在鲁棒性测试中,土地覆盖类型对模型生成稳定性有较高的影响,常见类型如草原、稀树草原生成稳定性高,FID 较低;复杂或稀有类型如湿地、城市的 FID 则较高,如城市 FID 为 284.65,这是因为训练数据不足所致。另外,模型在 2017 年至 2024 年的测试集上的表现稳定,在 2023 年至 2024 年数据集上也未见性能退化, 这证明对于未见的时空场景,所设计的模型依然具有高强度的适应性。


总而言之,EcoMapper 引入了一个生成框架,用于根据气候变量模拟卫星图像,目的是对环境景观如何响应天气和长期气候变化进行建模。这为气候变化影响可视化、情景探索以及增强整合卫星和气候数据的下游模型提供了新机会,比如作物产量预测、土地利用监测或多云地区的图像填补。

机器学习算法加持,打开卫星图像生成的新范式

生成式模型在卫星图像生成中的应用正通过深度学习技术实现突破,其结合了神经网络的深度学习能力和海量的卫星数据,从而生成逼真的高分辨率、多模态遥感影像。除了上述内容外,学研界在此领域的研究早已形成了「接力赛」,通过不断创新方式方法,为卫星图像领域的研究铺就一条坚实的路。


比如文中提到的 DiffusionSat,这是首个专门为卫星图像设计的大规模扩散模型,支持多光谱输入、时间序列生成和超分辨率。其创新地将地理位置等元数据作为条件信息,解决卫星图像缺乏文本标注的问题。相关研究由斯坦福大学团队发表,题为「DIFFUSIONSAT: A GENERATIVE FOUNDATION MODEL FOR SATELLITE IMAGERY」,收录于 ICLR 2024。
论文地址:

https://arxiv.org/pdf/2312.03606


除此之外,来自北京航空航天大学的团队发表的题为「MetaEarth: A Generative Foundation Model for Global-scale Remote Sensing Image Generation」的研究。他们提出了一种名为 MetaEarth 的全球尺度生成模型,通过分辨率引导的自级联框架,使模型能够在分阶段从低分辨率生成高分辨率的地理图像,并采用滑动窗口与噪声共享策略实现了无边界拼接。
论文地址:

https://arxiv.org/pdf/2405.13570


另外,来自麻省理工学院、哥伦比亚大学、牛津大学等团队的研究人员还展示了生成视觉模型在合成卫星图像用于气候变化相关可视化方面的研究进展。他们提出了一种称为 Earth Intelligence Engine(EIE)的方法,结合基于物理的洪水模型投影和卫星图像作为深度生成视觉模型输入,通过评估生成图像与洪水输入的交集来实现。结果表明,该方法在物理一致性和视觉质量上表现出色,优于无物理条件的基线模型,且对不同遥感数据和气候事件由泛化能力。论文题目为「Generating Physically-Consistent Satellite Imageryfor Climate Visualizations」。
论文地址:

https://arxiv.org/html/2104.04785v5


毫无疑问,生成式模型正在重塑卫星图像的生成与应用范围,从洪水预警到全球尺度生成面模型,从多光谱数据融合再到时空动态模拟,其不仅展示先进的技术突破,同时也展示了巨大的应用潜力。相信不久的未来,随着扩散模型、自级联框架等技术的进一步优化,生成模型有望为卫星图像的发展注入更加强劲的动力。


参考资料:
1.https://arxiv.org/pdf/2312.03606
2.https://arxiv.org/html/2104.04785v5
3.https://arxiv.org/pdf/2405.13570


 往期推荐 


“阅读原文”,免费获取海量数据集资源!


(文:HyperAI超神经)

发表评论