FLUX加持大幅提升渲染质量和控制能力!浙大&哈佛提出3DIS升级版3DIS-FLUX

↑ 点击蓝字 关注极市平台
作者丨AI生成未来
来源丨AI生成未来
编辑丨极市平台

极市导读

 

浙大与哈佛团队提出3DIS-FLUX,通过深度驱动的解耦生成框架和FLUX模型的结合,显著提升了多实例生成任务的渲染质量和控制能力,同时避免了额外训练负担,实验表明其在实例成功率和图像质量上优于现有方法。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

文章链接:https://arxiv.org/pdf/2501.05131

项目链接:https://limuloo.github.io/3DIS/

亮点直击

  • 3DIS的创新:通过深度驱动的解耦生成框架,大大降低了对计算资源的需求,并解决了适配器方法的重新训练问题。
  • FLUX的集成:3DIS-FLUX利用FLUX模型提升了渲染质量和控制能力,超越了传统的U-Net架构。
  • 训练-free细节渲染:通过细致控制FLUX模型中的Attention机制,成功实现了对每个实例细节的精确渲染,避免了额外的训练负担。
  • 性能与质量双重提升:3DIS-FLUX在多个基准测试中显示出比现有方法更好的实例成功率和更高的图像质量。

总结速览

解决的问题:

  • 适配器方法的挑战:当前的MIG方法通常基于适配器,这要求在每次推出更先进的模型时重新训练新的适配器,消耗大量资源。此外,高质量的实例级标注数据难以获得。
  • 计算资源和数据依赖:适配器方法需要为不同的模型进行重新训练,这对资源有限的用户造成了困扰;同时,实例级别的标注数据难以获得。

提出的方案:

  • 3DIS框架:通过将MIG过程分为两个阶段:1) 基于深度的场景构建;2) 利用预训练的深度控制模型进行细节渲染,减轻了对大量训练数据和计算资源的依赖。特别地,3DIS在场景构建阶段只需要训练深度生成模型。
  • 3DIS-FLUX扩展:在3DIS框架基础上,引入FLUX模型用于增强渲染能力,利用FLUX.1-Depth-dev模型进行深度图控制的图像生成,同时通过训练-free的细节渲染器对实例属性进行精细化控制,确保每个实例的细节符合布局信息。

应用的技术:

  • 3DIS框架:将MIG分为深度生成和细节渲染两个独立的阶段,前者使用布局到深度图的生成模型,后者利用预训练的深度控制模型进行细节渲染。
  • FLUX模型:作为基于Diffusion Transformer(DiT)架构的模型,FLUX具有比传统U-Net架构更强的渲染能力和控制能力。特别是在3DIS-FLUX中,FLUX被用来生成基于深度图的图像,并通过约束Joint Attention机制精确渲染每个实例的细节。
  • 训练-free的细节渲染器:通过约束FLUX的Joint Attention机制,确保每个实例的图像tokens仅关注自己的text tokens,从而精确渲染实例属性。

达到的效果:

  • 提高渲染精度:3DIS-FLUX在COCO-MIG基准测试中,相比原始的3DIS方法(使用SD2和SDXL),实例成功率(ISR)提高了6.9%。相比于训练-free的SOTA方法Multi-Diffusion,ISR提高了41%以上,超越了当前的SOTA适配器方法InstanceDiffusion(提高了12.4%)。
  • 图像质量提升:FLUX模型的引入大幅提高了图像质量,3DIS-FLUX在渲染效果上超过了其他方法。

方法

前提

FLUX是一种最新的最先进的扩散Transformer(DiT)模型,相比于以前的模型,它生成的图像质量更高,并展示了强大的文本控制能力。给定输入文本,FLUX 首先使用 T5 文本编码器将其编码为文本嵌入。然后,将这个文本嵌入与图像嵌入连接,进行联合注意力机制。经过几轮联合注意力后,FLUX 模型解码输出的图像嵌入,生成与输入文本相对应的高质量图像。

问题定义

多实例生成(MIG)要求生成模型同时生成多个实例,确保它们的位置和属性与用户的规格对齐。给定布局 和实例的文本描述 ,MIG 要求每个实例 在指定的位置 生成,并与描述 在视觉上匹配。此外,用户提供一个描述整个场景的全局文本 ,生成的图像必须与该全局文本一致。

概述

下图 2 展示了 3DIS-FLUX 的概述。与原始 3DIS 相似,3DIS-FLUX 将多实例生成解耦为两个阶段:生成场景深度图和渲染细粒度细节。在第一阶段,3DIS-FLUX 使用来自 3DIS 的布局到深度模型生成基于用户提供的布局的场景深度图。在第二阶段,3DIS-FLUX 使用 FLUX.1-depth-dev模型从场景深度图生成图像,从而控制生成图像的布局。为了进一步确保每个实例的细粒度属性得到准确渲染,3DIS-FLUX 引入了细节渲染器,该渲染器在联合注意力过程中根据布局信息约束注意力掩码。

FLUX 细节渲染器

动机
给定第一阶段生成的场景深度图,FLUX.1-depth-dev 模型(BlackForest,2024)能够生成符合指定布局的高质量图像。在仅涉及单个实例的场景中,用户可以通过描述一个全局图像文本来实现精确渲染。然而,当尝试用一个全局文本描述准确地渲染多个实例时,会遇到挑战。例如,在上面图 2 所示的案例中,使用像“一个橙色杯子,一个黄色杯子,一个蓝色杯子”这样的描述渲染场景深度图中的每个“杯子”时,会遇到困难。这种方法常常导致颜色不一致的问题,例如原本应为蓝色的杯子被渲染为橙色,下图 4 中有更多例子说明了这个问题。因此,将空间约束整合到 FLUX 模型的联合注意力过程中对于准确渲染多个实例至关重要。为了解决这些问题,本文引入了一个简单但有效的 FLUX 细节渲染器,大大提高了渲染精度。

准备工作
为了根据用户的描述同时渲染多个实例,不仅将全局图像文本 编码为 ,还将实例描述 编码为 。这些编码后的特征被连接成最终的文本嵌入 ,然后输入到 FLUX 模型的联合注意力机制中。根据用户提供的布局 ,我们在联合注意力过程中确定图像标记和文本标记之间的对应关系。由于在第一阶段已经生成了场景深度图,可以选择使用 SAM模型进一步优化用户的布局,以获得更准确的渲染,如图 2 所示。

控制图像嵌入的注意力
FLUX 模型通过多步采样生成图像。

  1. 早期步骤确定每个实例的主要属性。因此,必须严格避免属性泄漏,确保与实例 对应的图像标记只能在 区域内参与联合注意力,并且只能关注其对应的文本标记

  2. 在后期步骤,为了确保生成图像的质量,放宽这一约束:每个图像标记可以关注所有其他图像标记。此外,在关注其对应的文本标记 时,它还可以关注全局文本标记 。我们通过设置阈值 来控制这两个阶段。

控制文本嵌入的注意力
在 FLUX 模型中,T5 文本编码器专门用于提取文本编码,而没有结合图像数据进行预训练。这与以前使用 CLIP 文本编码器的方式不同,后者是在文本和图像数据上进行过预训练的。在联合注意力过程中,T5 文本嵌入本身缺乏显著的语义信息。如果没有约束,它们容易不小心引入错误的语义信息。例如,如下图 5 所示,当“黑色汽车”和“绿色停车计时器”的 T5 文本嵌入被连接并输入到 FLUX 的联合注意力机制时,允许“绿色停车计时器”标记关注“黑色汽车”标记,导致停车计时器主要呈现为黑色。与此同时,我们发现 FLUX 在此阶段无法成功渲染“黑色汽车”。因此,在联合注意力过程中必须对文本标记的注意力掩码施加约束,以避免此类语义差异。我们发现,在所有步骤中对实例的文本标记施加严格的注意力掩码约束,并不会显著影响最终生成图像的质量。因此,在所有步骤中,限制与 对应的文本标记仅关注位于 区域内的图像标记,并且只关注其自身的文本标记。对于全局文本标记 ,我们不施加显著约束。

实验

实现细节

在布局到深度阶段,采用与原始 3DIS方法相同的方式。为了在图像生成中加入深度控制,使用了 FLUX.1-depth-dev 模型。在图像生成过程中,采用了 20 步的采样策略。对于分辨率为 512 的图像,参数 设置为 4。随着分辨率的增加, 也会相应调整:对于分辨率为 768 的图像, 设置为 3 ;对于分辨率为 1024 的图像, 调整为 2 。

实验设置

基准方法
将3DIS 方法与最先进的多实例生成方法进行了比较。比较中涉及的方法包括无训练的方法:BoxDiffusion和 MultiDiffusion;以及基于适配器的方法:GLIGEN、InstanceDiffusion和 MIGC。

评估基准
在 COCO-MIG基准上进行了实验,以评估模型控制实例位置和准确渲染每个生成实例的细粒度属性的能力。为了进行全面评估,每个模型在基准上生成了 750 张图像。

评估指标
使用以下指标来评估模型:

  1. 平均交并比(MIoU),衡量生成的实例位置与目标位置之间的重叠度;
  2. 实例成功率(ISR),计算正确定位且具有准确属性的实例比例。

比较

与最先进方法的比较
下表 1 中展示的结果表明,3DIS 方法不仅展现了强大的位置控制能力,还具有稳健的细节渲染能力。值得注意的是,3DIS 的整个实例属性渲染过程是不需要训练的。与之前的最先进无训练方法 MultiDiffusion 相比,3DIS-FLUX 在实例成功率(ISR)上提高了 41%。此外,与需要训练的 SOTA 适配器方法 InstanceDiffusion 相比,3DIS-FLUX 在 ISR 上提高了 12.4%。更重要的是,3DIS 方法并不与现有的适配器方法互斥。例如,3DIS+GLIGEN 和 3DIS+MIGC 的组合在性能上超越了单独使用适配器方法,表现更加优越。

下图 3 提供了 3DIS 与其他最先进方法的视觉对比,结果表明,3DIS 不仅在场景构建上表现出色,而且在实例细节渲染上也有强大的能力。此外,3DIS 与各种基础模型兼容,提供了比以前方法更广泛的应用性。

不同模型的渲染比较
如表 1 所示,采用更强大的模型显著提高了渲染成功率。例如,使用 FLUX 模型进行渲染比使用 SD1.5 模型的实例成功率高出 9.9%。

消融研究

FLUX 细节渲染器
前面图 4 的结果表明,如果不使用细节渲染器来管理 FLUX 模型的联合注意力过程,在多实例场景中成功渲染每个实例将变得非常困难。下表 2 的数据表明,引入细节渲染器可以将实例成功率(ISR)提高 17.8%,成功率(SR)提高 12.2%。此外,图 4 的结果还表明,加入细节渲染器不会显著降低图像质量。

控制图像嵌入的注意力
表 2 的结果显示,在联合注意力机制中,控制每个图像标记仅关注其对应的实例描述标记(即 I2T 控制)对于成功渲染每个实例至关重要,这使得实例成功率(ISR)提高了 19.1%。此外,在过程的早期步骤中,限制每个实例的图像标记仅关注属于同一实例的其他图像标记(即 I2I 控制)也带来了显著的改进,使 ISR 提高了 7.5%。

控制文本嵌入的注意力
与使用 CLIP 作为文本编码器的模型(如 SD1.5、SD2和 SDXL )不同,FLUX 使用 T5 文本编码器。该编码器仅在文本数据上进行预训练,生成的嵌入不包含视觉信息。因此,在联合注意力机制中,在多实例上下文中对文本标记施加约束变得尤为重要。正如前面表 2 和图 5 的结果所示,在联合注意力机制中,如果不对文本标记施加约束—允许一个实例的文本标记关注其他实例的文本标记—会显著降低渲染成功率,ISR 减少了 16.3%。此外,我们的分析还发现,添加约束,使得每个实例的文本标记仅关注其对应的图像标记,并未带来显著的改进。

结论

3DIS-FLUX,这是对先前 3DIS 框架的扩展。原始的 3DIS 探索了一种仅使用 U-net 架构的免训练渲染方法。与之相比,3DIS-FLUX 利用了最先进的 DiT 模型 FLUX 进行渲染。在 COCO-MIG 数据集上进行的实验表明,使用更强大的 FLUX 模型进行渲染使得 3DIS-FLUX 显著优于先前的 3DIS-SDXL 方法,甚至超越了最先进的基于适配器的 MIG 方法。3DIS-FLUX 的成功突显了 3DIS 框架的灵活性,它能够快速适应各种新的、更强大的模型。预计 3DIS 将使用户能够利用更广泛的基础模型进行多实例生成,并扩展其在更多应用场景中的适用性。

参考文献

[1] 3DIS-FLUX: simple and efficient multi-instance generation with DiT rendering

(文:极市干货)

欢迎分享

发表评论