英伟达联合清华、MIT推出史上最快绘画大模型

去年10月,英伟达联合清华大学、麻省理工大学推出了Sana绘画模型。

相比于传统的大型扩散模型,Sana 在模型大小上显著缩减,并在推理速度方面实现了巨大的提升。在生成 1K 分辨率图像时,Sana-0.6B 速度比当前最先进的模型 FLUX 快了 40 倍以上。而 Sana 之所以能在性能与效率之间实现良好的平衡,归功于其核心架构的一系列革新。

Sana 的优势首先得益于其所使用的深度压缩自动编码器(Deep Compression Autoencoder)。传统的自动编码器通常只能将图像的长度和宽度压缩 8 倍,Sana 采用了一种新的自动编码器,压缩倍数高达 32 倍。

图丨Sana 概述(来源:arXiv)

这种高倍数的压缩技术大幅减少了潜在 token 的数量,从而显著降低了训练和推理所需的计算量,尤其适用于超高分辨率图像的生成。借助这种技术,Sana 在有效降低计算开销的同时,成功保证了生成图像的高质量,实现了高效率与高质量的完美融合。

其次,Sana 创新性地采用了一种高效的线性 DiT(Linear Diffusion Transformer)来取代传统的二次方复杂度的自注意力模块。以往的自注意力机制计算复杂度为 O(N²),在处理高分辨率图像时,其计算量会呈二次方增长,这无疑需要耗费大量的计算资源。而 Sana 通过引入线性注意力,巧妙地将计算复杂度降低至 O(N),由此显著提升了处理高分辨率图像时的计算效率,为高效处理图像奠定了坚实基础。

同时,研究团队还精心设计了 Mix-FFN 模块来替代 MLP-FFN,巧妙地将 3×3 深度卷积整合到多层感知器(Multilayer Perceptron,MLP)之中,从而能够更好地聚合 token 的局部信息。实验结果充分证明,这种模块设计使得线性注意力在性能上与传统的自注意力不相上下,而在生成 4K 图像时,其延迟更是缩短了 1.7 倍,这一改进成果令人瞩目。

而且,Mix-FFN 模块无需借助位置编码(NoPE)就能保持出色的生成性能,成为首个完全省略位置嵌入的 DiT,这一创新之举进一步简化了模型结构,提高了模型的灵活性和适用性。

Sana 的另一大创新亮点在于对文本编码器的精心选择。团队果断采用了最新的仅解码器式小型 LLM Gemma-2 作为文本编码器,以此来显著增强对用户提示的理解和推理能力。与之前广泛使用的 T5 或 CLIP 编码器相比,Gemma-2 在文本理解和指令跟随能力方面更胜一筹,在理解和生成用户提示方面表现出色,从而使生成的图像在内容和细节上更加精准地契合用户的预期。

此外,研究人员巧妙地设计了复杂的人类指令(Complex Human Instruction,CHI),并结合上下文学习,进一步提升了 Sana 的文本 – 图像对齐能力,使得模型能够更精准地根据文本提示生成对应的图像内容。

为了进一步提升训练和推理的效率,团队还精心制定了一套高效的训练和采样策略。在训练阶段,Sana 借助多种视觉语言模型(Visual Language Model,VLM)对图像进行自动标签,并巧妙地运用基于 Clipscore 的采样策略来精心挑选最合适的标签,从而有效提高了训练的收敛速度以及文本与图像的对齐程度。与传统的随机选择标签的方法相比,这种策略大幅减少了训练过程中的不确定性,显著加速了模型的收敛进程。

在推理环节,团队更是提出了创新的 Flow-DPM-Solver 采样方法,将采样步骤从传统的 28 – 50 步精简至 14 – 20 步,同时在采样质量上实现了显著提升。这一改进不仅大幅提高了采样的效率,还在很大程度上降低了对计算资源的需求,使得 Sana 能够在较低的硬件配置下也能高效稳定地运行,极大地拓展了其应用范围。

实验结果充分表明,Sana-0.6B 不仅在参数数量上远少于众多现有的扩散模型,而且在计算速度上也展现出显著优势。在配备 16GB GPU 的 PC 端上,Sana-0.6B 能够在不到 1 秒的时间内快速生成分辨率为 1024×1024 的图像,这无疑意味着它在低成本的内容创作以及边缘设备部署等方面具有巨大的应用潜力,有望为相关领域带来诸多变革与突破。

图丨Sana 生成的图像及其推理延迟(来源:arXiv)

而在生成 4096×4096 的高分辨率图像时,其推理延迟也仅为 9.6 秒。相比之下,当前最先进的 FLUX 模型需要 469 秒才能完成同样的任务。

进一步的测试显示,在1024×1024 分辨率下,Sana 的生成速度比 LUMINA-Next、SDXL 以及 PixArt-Σ 等同类模型均快了数倍,同时保持了非常高的生成质量。

在生成性能上,Sana-0.6B 的每秒吞吐量达到了 1.7 张图像,而且参数量为 1.6B 的 Sana 版本也能实现 1.0 张每秒的速度,这表明 Sana 在维持高图像质量的前提下依旧具备极高的推理效率。

图丨Sana 与 SOTA 方法在效率和性能方面的差异(来源:arXiv)

Sana 为高效的高分辨率图像生成提供了一个有潜力的基础模型,其显著的计算效率和速度优势,使得高分辨率图像生成技术向低成本、低门槛方向迈出了重要的一步。未来,团队计划基于 Sana 构建高效的视频生成流程,将其应用拓展至动态内容生成领域。

附:ComfyUI工作流下载(工作流用到的模型下篇文章详细介绍,请继续关注)

https://pan.quark.cn/s/68bc5aaed47b

(文:路过银河AI)

欢迎分享

发表评论