CVPR 2025 Oral DiffFNO：傅里叶神经算子助力扩散，开启任意尺度超分辨率新篇章

本文由圣路易斯华盛顿大学与北京大学联合完成，第一作者为圣路易斯华盛顿大学的刘晓一，他在北京大学访问期间完成了该项研究；通讯作者为北京大学计算机学院唐浩助理教授 / 研究员。

从单张低分辨率（LR）图像恢复出高分辨率（HR）图像 —— 即 “超分辨率”（SR）—— 已成为计算机视觉领域的重要挑战。近年来，随着医疗影像、卫星遥感、视频监控和游戏渲染等应用对图像细节的需求不断提升，该技术的应用愈发广泛。传统深度学习超分模型（如 SRCNN、EDSR）在固定放大倍数下表现优异，但要么无法支持任意放大尺度，要么在大倍率和复杂纹理场景中常出现细节模糊和伪影。扩散模型能有效恢复高频细节，却因需多次迭代去噪而推理缓慢，难以满足实时应用需求。为彻底打破 “高质量重建” 与 “快速推理” 之间的矛盾，算子学习在运算效率和分辨率不变性方面的提升为该领域带来了新的机遇。

圣路易斯华盛顿大学和北京大学团队提出的 DiffFNO（Diffusion Fourier Neural Operator）以神经算子赋能扩散架构。该方法支持高质、高效、任何连续倍率（如 2.1、11.5 等）的超分。它的优秀表现来源于三大组件：【1】加权傅里叶神经算子（WFNO）、【2】门控融合机制、和【3】自适应 ODE 求解器。在各大基准上，DiffFNO 均以 2~4 dB PSNR 优势领先于 SOTA 方法。在训练分布外的超分倍率上，改进效果尤为明显。此研究已入选 CVPR 2025 Oral。

论文题目：DiffFNO: Diffusion Fourier Neural Operator
论文主页：https://jasonliu2024.github.io/difffno-diffusion-fourier-neural-operator/
论文链接：https://arxiv.org/abs/2411.09911

一、核心思路与框架概览

DiffFNO 由三大模块组成：

1.WFNO（Weighted Fourier Neural Operator）＋模式重平衡（Mode Rebalancing）：借助频域卷积捕获全局信息，并通过可学习的频率权重放大高频分量，进一步增幅普通 FNO 在超分任务中对高频细节的提取。

2.Gated Fusion Mechanism（门控融合机制）：并行引入轻量化的注意力算子（AttnNO），以捕捉局部空间特征。时空动态门控图将谱域与空域特征按需融合，兼具全局一致性与细节刻画。

3.ATS ODE Solver（自适应步长 ODE 求解器）：将扩散模型逆过程从随机 SDE 转化为确定性 ODE，仅几十步内即可完成去噪重建，大大提升推理速度。

下图展示了 DiffFNO 的完整流架构。此方法将图片视作从空间坐标到 RGB 值的方程，通过 WFNO 学习此类方程之间的任意分辨率超分映射，在门控机制的调适下与空域算子协作，再由自适应求解器高效地用扩散模型进一步优化重构结果的质量。

二、加权傅里叶神经算子与模式重平衡

传统 FNO 在频域对输入特征进行截断处理，舍弃高频模式以降低计算量，但这也导致超分场景中纹理、边缘等细节难以恢复。WFNO 通过以下两步予以改进：

全模式保留：保留完整傅里叶频谱，兼顾图片信息的整体解构与局部细节；
可学习频率权重：在每一层引入可学习的标量参数，与频率范数结合，动态调整不同频段的影响力。

具体地，频域滤波器由权重实现了对高频细节的自适应放大。实验表明，WFNO 相比普通 FNO 在大倍率超分任务中，PSNR 提升约 0.3–0.5 dB，细节还原更加清晰。

三、门控融合：谱域与空域特征的智慧分配

尽管 WFNO 强于全局依赖建模，但局部纹理如微小纹路、噪点修复仍需空域信息。于是，DiffFNO 并行引入 Attention-based Neural Operator（AttnNO），其核心由双三次插值、Galerkin 注意力和非线性激活组成，可高效捕捉局部关联。两路输出 WFNO 和 AttnNO 特征经通道拼接后，通过 1×1 卷积加 sigmoid 得到门控图。

此方式兼具光谱全局信息与空间局部信息，让网络在不同像素位置灵活 “借力”，避免了简单拼接带来的冗余计算与信息冲突。

四、自适应步长 ODE：从上千步到数十步

扩散模型逆向过程本质为去噪迭代，若按原生 SDE 形式采样，通常需上千步，耗时数百毫秒以上。DiffFNO 首先将随机 SDE 转化为确定性概率流 ODE，再引入自适应时间步分布：

1. 以多项式基函数构造可学习的映射，通过其逆函数生成非均匀步长；

2. 在每一步评估区域复杂度，动态分配步长，使关键阶段步长更细、平滑区域步长更粗；

3. 采用经典的 RK4 高阶求积器，兼顾精度与效率。

如此一来，DiffFNO 使用自适应 ODE 求解器后，仅需约 30 步即可还原高清图像——与传统需要约 1000 步的逆扩散过程相比，推理步数减少了近 33 倍；推理时间也几乎减半（从266 ms 缩短至约 141 ms），但图像质量依旧保持不变，甚至在大尺度放大下表现更佳。

五、实验验证与视觉对比

在 DIV2K、Set5、Set14、BSD100、Urban100 等五大公开数据集上，DiffFNO 均以 2~4 dB 的 PSNR 优势领先于 MetaSR、LIIF、SRNO、HiNOTE 等多种 SOTA 任意尺度超分方法，其中优势在 ×8、×12 等大倍数放大时更加显著。

定性结果中，DiffFNO 对建筑细节、植物纹理、动物皮毛、玻璃反射等高频结构均有出色复原，边缘轮廓锐利且伪影极少。

消融研究表明：

去除模式重平衡，PSNR 下降约 0.4 dB；
去除 AttnNO，局部纹理复原受损；
去除 ATS，所需推理步数回升至千步级。

这些实验共同证明，三大组件缺一不可，相辅相成。

六、总结

本文介绍了 DiffFNO，一种以神经算子强化扩散的新颖任意分辨率方法。通过加权傅里叶神经算子、门控融合机制、和自适应 ODE 求解器，该方法取得了优异的计算时效和高质量的重构，为看似矛盾的 “高精度” 与 “低成本” 取舍提供了新的思路。实验结果表明，我们的方法在多个数据集中、训练分布之外均优于以往与当代任意分辨率方法。DiffFNO 有力地打破了超分任务中固定尺寸的枷锁，适用于医学，勘探，游戏等多个对图像质量有着高要求的领域。

（文：机器之心）

2025 年 5 月
一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复