参数减少99.5%,媲美全精度FLUX!字节跳动等发布首个1.58-bit FLUX量化模型

↑ 点击蓝字 关注极市平台
作者丨AI生成未来
来源丨AI生成未来
编辑丨极市平台

极市导读

 

字节跳动等机构发布的1.58-bit FLUX量化模型,该模型将FLUX视觉Transformer的参数减少99.5%,在保持与全精度FLUX相当的性能的同时,显著降低了存储需求和推理内存。通过采用高效的线性内核和无监督量化方法,1.58-bit FLUX在文本生成图像(T2I)基准测试中表现出色,展示了在大模型推理中的新SOTA。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

文章链接:https://arxiv.org/pdf/2412.18653

项目链接:https://chenglin-yang.github.io/1.58bit.flux.github.io/

git主页:https://github.com/Chenglin-Yang

亮点分析

  • 1.58-bit FLUX,第一个将 FLUX 视觉 Transformer 的参数(共 119 亿)减少 99.5% 至 1.58-bit 的量化模型,无需依赖图像数据,大幅降低存储需求。
  • 开发了一个高效的线性内核,针对 1.58-bit 计算进行了优化,实现了显著的内存减少和推理加速。
  • 证明了 1.58-bit FLUX 在具有挑战性的 T2I 基准测试中,性能与全精度 FLUX 模型相当。

总结速览

解决的问题

  • 当前文本生成图像(T2I)模型,如 DALLE 3、Stable Diffusion 3 等,参数量巨大,推理时内存需求高,难以在资源有限的设备(如移动设备)上部署。
  • 本文重点研究极低比特量化(1.58-bit)在 T2I 模型中的可行性,以减少存储和内存需求,同时提升推理效率。

提出的方案

  • 选用 FLUX.1-dev 模型作为量化目标,通过后训练量化方法将其权重压缩为 1.58-bit(值限制为 {-1, 0, +1}),无需访问图像数据。
  • 开发专用的低比特操作优化内核,进一步提升推理效率。

应用的技术

  • 1.58-bit 权重量化:使用类似 BitNet b1.58 的方法,将模型的线性层权重压缩至 1.58-bit,并通过 2-bit 有符号整数存储权重,从而实现极低比特化。
  • 无监督量化方法:完全依赖 FLUX.1-dev 模型本身的自监督机制,无需依赖混合精度方案或额外的训练数据。
  • 定制化内核:针对低比特操作优化的推理内核,降低内存使用并缩短推理延迟。

达到的效果

  • 存储效率:模型存储需求减少 7.7×,从 16-bit 压缩到 2-bit。
  • 推理效率:推理时的内存使用减少 5.1×,推理延迟显著改善。
  • 生成质量:在 GenEval 和 T2I Compbench 基准测试上,生成质量与全精度 FLUX 基本持平,验证了方案的有效性和实用性。

实验结果

设置

量化:使用一个校准数据集进行量化,数据集由 Parti-1k 数据集和 T2I CompBench 训练集的提示语组成,共计 7,232 条提示语。整个过程完全不依赖图像数据,不需要额外的数据集。量化将 FLUX 中 FluxTransformerBlock 和 FluxSingleTransformerBlock 的所有线性层权重压缩至 1.58-bit,占模型总参数的 99.5%。

评估:在 GenEval 数据集 和 T2I CompBench 验证集上评估 FLUX 和 1.58-bit FLUX,遵循官方的图像生成流程。

  • GenEval 数据集:包含 553 条提示语,每条提示语生成 4 张图像。
  • T2I CompBench 验证集:包含 8 个类别,每个类别有 300 条提示语,每条提示语生成 10 张图像,总计生成 24,000 张图像进行评估。
  • 所有图像均以 1024 × 1024 的分辨率生成,适用于 FLUX 和 1.58-bit FLUX。

结果

性能:在 T2I Compbench 和 GenEval 基准测试中,1.58-bit FLUX 与全精度 FLUX 的性能表现相当,具体结果见表 1 和表 2。在应用自定义线性内核前后,性能变化微乎其微,进一步验证了实现的准确性。

效率:如下图 2 所示,1.58-bit FLUX 在模型存储和推理内存上取得了显著提升。在推理延迟方面,如下表 3 所示,特别是在低性能但易于部署的 GPU(如 L20 和 A10)上,改进更为显著。

结论与讨论

本文提出了 1.58-bit FLUX,将 99.5% 的 Transformer 参数量化至 1.58-bit,并通过自定义计算内核实现了以下改进:

  • 存储需求减少:模型存储需求降低 7.7 倍。
  • 推理内存减少:推理内存使用减少超过 5.1 倍。

尽管实现了这些压缩效果,1.58-bit FLUX 在 T2I 基准测试中表现出与全精度模型相当的性能,同时保持了较高的视觉质量。希望 1.58-bit FLUX 能够激励社区开发更适合移动设备的模型。

当前局限性

关于速度改进的局限性

  • 尽管 1.58-bit FLUX 降低了模型大小和内存消耗,但由于缺乏激活值量化和更高级的内核优化,其延迟改进有限。
  • 鉴于目前取得的成果,希望激励社区开发适用于 1.58-bit 模型的自定义内核实现。

关于视觉质量的局限性

  • 如下图 1、图 3 和图 4 所示,1.58-bit FLUX 能生成与文本提示高度一致的生动逼真的图像,但在渲染超高分辨率细节时仍落后于原始 FLUX 模型。
  • 计划在未来研究中缩小这一差距。

参考文献

[1] 1.58-bit FLUX

(文:极市干货)

欢迎分享

发表评论