谢赛宁新作爆火,扩散模型新赛道诞生!测试时计算带飞,性能飙到天花板



  新智元报道  

编辑:编辑部 HYZ
【新智元导读】划时代的突破来了!来自NYU、MIT和谷歌的顶尖研究团队联手,为扩散模型开辟了一个全新的方向——测试时计算Scaling Law。其中,谢赛宁高徒为共同一作。

测试时计算+扩散模型,终于有人做到了!
AI大神谢赛宁团队的新作,再次火得一塌糊涂。
众所周知,大模型+测试时计算,是OpenAI笃定的全新Scaling Law。o3横扫千军,就是最好的证明。
那么,扩散模型(DM)又如何呢?
这篇来自NYU、MIT和谷歌团队新研究中,提出了一个创新性解决方案,通过设计通用搜索框架,从两个维度来提升模型性能。

论文地址:https://arxiv.org/pdf/2501.09732
一是引入验证器提供质量反馈,而是设计专门的算法寻找更优质的噪声候选。
简言之,验证器+算法,成为了打通扩散模型测试时Scaling Law的核心要素。
谢赛宁表示,「2025年扩散模型的两个令人兴奋的方向:要么(非常)小,要么(非常)大」。

扩散模型,也有测试时Scaling Law

那么,扩散模型+测试时计算,真的能够看到全新的Scaling Law吗?
从大佬的推文中,我们能够获得关键的一瞥。
谢赛宁发的一篇长帖表示,自己在第一次看到扩散模型时,被它们在推理过程中的扩展性震撼到了:
你在训练时的计算量是固定的,但在测试时,你可以把计算量提高1000倍。
不过,这是在o1出现之前的事了。
然而,这种Scaling方式存在一个明显的瓶颈——当去噪步骤增加到一定程度后,性能提升就会变得微乎其微。
根据共同一作Nanye Ma的介绍,团队在这项研究中将推理时Scaling重新定义为采样噪声的搜索问题。
结果表明,增加搜索计算,可以提升生成性能,从而进一步推动扩散模型的能力。
扩散模型具有天然的灵活性,可以有在推理阶段通过调整降噪步骤数量,来分配不同计算资源
然而,由于误差累积,增加去噪步骤所带来的性能提升通常会在几十步后达到瓶颈。
因此,为了让扩散模型在推理阶段实现更大规模的Scaling,需要设计一个新的框架。
根据「优选效应」我们知道,在采样过程中,一些初始噪声会比其他的表现更好。
也就是说,可以尝试通过投入更多的计算资源来搜索更好的噪声,突破推理阶段Scaling的极限。
那么,问题来了:我们该如何判断哪些采样噪声更好,又该如何有效地搜索这些噪声呢?
为此,团队提出了一种由两个部分组成的搜索框架:验证器提供反馈,算法用于寻找更优的噪声候选。
在使用SiT-XL的ImageNet上,不同验证器与算法的组合展现出显著不同的Scaling特性。
接下来,团队研究了搜索框架在文本条件生成任务中的能力。
在DrawBench上使用12B FLUX.1-dev模型时,通过结合所有验证器进行搜索,可以提升样本质量,但具体的改进效果在不同设置中差异很大。
这些观察结果表明,没有单一的搜索配置可以普遍适用;相反,每个任务都需要一个独特的搜索设置来实现最佳的Scaling能力。
最后,团队研究了推理时计算Scaling如何使较小的扩散模型受益。
在ImageNet上,SiT-L在有限的推理预算下优于SiT-XL;对于文本到图像任务,0.6B PixArt-Sigma的总计算量仅为FLUX.1-dev的十分之一,却实现了更优的表现。
这些结果表明,大量的训练成本可以通过适度的推理时计算来部分抵消,从而更有效获得更高质量的样本。
接下来,就让我们一起拜读一下这篇大作吧。

「事半功倍」不行,那就开辟新路

正如开篇所述,全新搜索框架两个设计轴:用于在搜索中提供反馈的验证器,以及用于寻找更好噪声候选项的算法。
总而言之,最新研究的贡献主要有三大点:
  • 提出了一个用于扩散模型推理时Scaling的基础框架。论文表明,通过搜索来Scaling函数评估次数(NFE)可以在各种生成任务和模型规模上带来显著改进,超越了仅增加去噪步骤的效果。
  • 确定了所提出搜索框架中的两个关键设计轴:提供反馈的验证器和寻找更好噪声候选项的算法。通过研究了不同验证器-算法组合在各种任务中的表现,结果发现表明没有一种配置是普遍最优的;每个任务反而需要特定的搜索设置才能实现最佳Scaling性能。
  • 对验证器与不同生成任务之间的对齐进行了广泛分析。结果揭示了不同验证器中嵌入的偏差,以及在每个不同的视觉生成任务中需要专门设计验证器的必要性。

项目地址:https://inference-scale-diffusion.github.io/

将推理时Scaling作为搜索问题

研究人员将推理时Scaling构建为对采样噪声的搜索问题——具体来说,他们如何知道哪些采样噪声是好的,以及如何搜索它们。
站在更高层次上,他们提出考虑两个设计轴:
1. 验证器(Verifiers):能够对噪声候选项质量提供反馈的预训练模型;具体而言,它们接收生成的样本和可选的相应条件作为输入,并为每个生成的样本输出一个标量值作为分数。
2. 算法(Algorithms):基于验证器反馈寻找更好噪声候选项的函数。形式化定义为,算法是函数:
该函数接收验证器V、预训练的扩散模型D_θ、N对生成的样本及其对应条件,并根据噪声和样本之间的确定性映射输出最佳初始噪声。
在整个搜索过程中,f通常需要对D_θ进行多次前向传递。
研究人员将这些额外的前向传递称为搜索成本,同样用NFE来度量。
在下面展示的类条件ImageNet生成任务的设计流程中,研究人员使用在ImageNet-256上预训练的SiT-XL模型,并使用二阶Heun采样器进行采样。
他们用去噪步骤和搜索中使用的总NFE来衡量推理计算预算。去噪步骤固定为最优设置250,主要研究投入到搜索中的NFE的Scaling行为。

验证器

验证器方面,研究人员考虑了三种不同类型,旨在模拟三种不同的用例。
1. 预言验证器(Oracle Verifier):利用所选样本最终评估的完整特权信息。
结果显示,尽管预言验证器很有效,但在实际场景中并不实用,因为它需要完全访问样本的最终评估结果。
研究人员将这些结果仅作为概念验证,证明通过将计算资源投入到搜索中是可能实现更好的性能,并在推理时实现显著的Scaling性能。
2. 监督验证器(Supervised Verifier):可以访问预训练模型来评估样本的质量以及它们与指定条件输入的对齐程度。
这里,研究人员采用了两个具有良好学习表示能力的模型:CLIP和DINO,并利用这两个模型的分类视角。
在搜索过程中,他们将样本输入这些分类器,并选择在生成时使用的类别标签对应的最高logits值的样本。
虽然与单纯通过增加去噪步骤来扩展NFE相比,这种策略能有效提高样本的IS分数,但作者使用的分类器与FID分数的目标只是部分对齐,因为它们是逐点操作的,并不考虑样本的全局统计特性。
这可能导致样本方差显著降低,并且随着计算量的增加最终表现为模式崩溃,这一点可以从不断增加的精确度(Precision)和不断下降的召回率(Recall)中得到证实。
3. 自监督验证器(Self-Supervised Verifier):使用在低噪声水平(σ=0.4)和无噪声(σ=0.0)样本之间的特征空间(分别由DINO/CLIP提取)余弦相似度来评估初始噪声的质量。
结果发现,这种相似度分数与DINO/CLIP分类器输出的logits高度相关,因此可以作为监督验证器的有效替代,如下所示。

算法

在算法方面,研究人员也考虑了三种不同的策略:
  1. 随机搜索(Random Search):简单地从固定候选集中选择最佳选项

  2. 零阶搜索(Zero-Order Search):利用验证器反馈来迭代优化噪声候选项

  3. 路径搜索(Search over Paths):利用验证器反馈来迭代优化扩散采样轨迹
下图6所示,展现了这些算法的性能,由于零阶搜索和路径搜索这两种算法的局部性特征,它们都在一定程度上缓解了FID的多样性问题,同时保持了Inception Score的缩放性能。

文本-图像推理时Scaling

接下来,作者继续研究搜索框架在更大规模的文本条件生成任务中的推理时Scaling能力,并研究验证器与特定图像生成任务之间的对齐情况。
为了对框架进行更全面的评估,研究人员使用了两个数据集:DrawBench和T2I-CompBench。
模型方面,作者采用了新发布的FLUX.1-dev模型作为主干网络。

分析结果:验证器Hacking和验证器-任务对齐

如图8所示,并且根据LLM评分器的指示,使用所有验证器进行搜索通常都能提高样本质量,但具体的改进表现在不同设置下有所不同。
这证实了作者观点:可以根据不同的应用场景专门选择搜索设置。

在推理时使用FLUX.1-dev进行搜索的性能
从图9中,作者还观察到,随着搜索预算的增加,评估指标的Scaling行为与ImageNet设置类似。
如下所示,这些验证器在DrawBench和T2I-CompBench上的对比表现,突显了某些验证器可能比其他验证器更适合特定任务。
这给作者带来了启发,设计更多针对特定任务的验证器,下一步工作会继续探讨。
下表2种,作者展示了搜索算法在DrawBench上的表现。
结果发现,这三种方法都能有效提高采样质量,其中随机搜索在某些方面的表现优于其他两种方法,这是由于零阶搜索和路径搜索的局部性特征所致。

搜索与微调兼容性

搜索和微调都旨在将最终样本,与显式奖励模型或人类偏好对齐。
前者将样本模式向特定验证器的偏好方向偏移,而后者直接修改模型分布以与奖励对齐。
这就引出了一个问题:在模型分布被修改后,我们是否仍然可以根据验证器来偏移样本模式?
作者使用DPO微调后的Stable Diffusion XL模型,并在DrawBench数据集上进行搜索。
由于该模型是在Pick-a-Pic数据集上微调的,他们用PickScore评估器替代了ImageReward。
如下表3所示,作者发现,搜索方法可以推广到不同的模型,并且能够提升已经对齐的模型的性能。这将成为一个有用的工具,可以用来:
  1. 缓解微调模型与奖励模型产生分歧的情况

  2. 提高模型的泛化能力

推理计算投入的维度


由于扩散模型的迭代采样特性,作者在搜索过程中可以在多个维度上分配计算资源。
下面列出这些维度并研究它们对搜索的影响。
  • 搜索迭代次数:增加迭代次数可以使选定的噪声更接近验证器所认为的最优集合,作者在之前的所有实验中都观察到了这种行为。
  • 每次搜索迭代的计算量:用NFEs/iter表示这种计算量。在搜索过程中,调整NFEs/iter可以揭示不同的计算最优区域,如下图10所示。

计算投入的有效性

此外,研究人员还探索了在较小的扩散模型上,Scaling推理时计算量的有效性,并强调了其相对于未使用搜索的更大模型的性能效率。
对于ImageNet任务,他们使用了SiT-B和SiT-L,对于文本到图像任务,除了FLUX.1-dev外,还使用了较小的基于Transformer的模型PixArt-ΣΣ。
由于不同大小的模型在每次前向传播时的计算成本差异显著,他们使用估计的GFLOPs来度量它们的计算成本,而不是使用NFEs。
如图11所示,在ImageNet上对小型模型进行推理时计算量的Scaling可以非常有效——在固定计算预算的情况下,在推理计算资源有限的区域中,SiT-L的表现可以超过SiT-XL。
然而,这要求小型模型具有相对较强的性能基础,SiT-B从搜索中获得的收益不如SiT-L多,也没有具有优势的计算区域。
这些观察结果也延伸到了基于文本条件的设置中,如下表4所示:仅使用1/10的计算量,PixArt-ΣΣ就超过了未使用搜索的FLUX-1.dev的性能,而使用大约两倍的计算量时,PixArt-ΣΣ显著超越了未使用搜索的FLUX.1-dev。
这些结果具有重要的实践意义:在训练时投入的大量计算资源可以通过生成时少量的计算来抵消,从而更高效地获得更高质量的样本。

作者介绍


Willis (Nanye) Ma
共同一作Nanye Ma是纽约大学的博士生,导师是谢赛宁,同时也是谷歌的学生研究员。此前,在NYU同时获得了数学和计算机专业的学士学位。
他的研究方向是AI视频生成,致力于改进潜表征和实现长时序一致性。研究兴趣则广泛涵盖CV领域,尤其是生成建模中的最优传输。
除了学术研究之外,他还喜欢打篮球、徒步、滑雪和摄影。
Shangyuan Tong
共同一作Shangyuan Tong,是麻省理工学院CSAIL的博士生,师从Tommi S. Jaakkola。此前,在UCSD获得学士学位。
他的研究方向为深度学习和生成模型。

(文:新智元)

欢迎分享

发表评论