只需 0.5B 参数,全面覆盖预训练+SFT + RL!极简自回归视觉生成框架SimpleAR

↑ 点击蓝字 关注极市平台
作者丨科技猛兽
编辑丨极市平台

极市导读

 

全面覆盖预训练,SFT,RL的极简自回归视觉生成框架。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

本文目录

1 SimpleAR:纯自回归视觉生成:预训练 + SFT + RL
(来自复旦大学,ByteDance Seed)
1.1 SimpleAR 简介
1.2 自回归图像生成
1.3 三阶段训练策略
1.4 SimpleAR 推理
1.5 实验设置
1.6 实验结果

太长不看版

全面覆盖预训练,SFT,RL的极简自回归视觉生成框架。

SimpleAR 是一个全面覆盖预训练,SFT,RL的极简自回归视觉生成框架。

SimpleAR 仔细探索了训练和推理优化,证明了:

  1. 只需 0.5B 参数,SimpleAR 模型可以生成高保真 1024×1024 分辨率图像,并在一些有挑战性的 T2I benchmark (比如 GenEval,DPG) 取得有竞争力的结果,比如 GenEval 得分 0.59,DPG 得分 79.66
  2. 有监督微调 (SFT) 和 Group Relative Policy Optimization (GRPO) 训练可以显著提高生成结果的美学质量以及指令对齐的水平。
  3. 当使用 vLLM 等推理加速技术优化时,SimpleAR 生成 1024×1024 图像的时间可以减少到仅仅约 14s。
图1:SimpleAR 在 1024×1024 分辨率下的文生图结果

SimpleAR:纯自回归视觉生成:预训练 + SFT + RL

论文名称:SimpleAR: Pushing the Frontier of Autoregressive Visual Generation through Pretraining, SFT, and RL

论文地址:

http://arxiv.org/pdf/2504.11455

代码链接:

http://github.com/wdrink/SimpleAR

1.1 SimpleAR 简介

自回归 (Autoregressive, AR) 模型将视觉生成视为一个顺序的过程,即:每个像素或 token 都是基于前面的过程生成的。自回归过程很自然地擅长精确以及连贯的预测,使得它对于需要细粒度控制的任务特别有效。此外,AR 视觉生成模型自然地兼容不同模态的数据 (比如语言和音频),这有助于原生多模态理解和生成。

尽管自回归模型有这些优势,但目前自回归视觉模型做生成仍然不如扩散模型。具体来讲有这么几种解释。一个假设是离散视觉 tokenizer 对自回归生成质量带来了限制。另一个假设是视觉序列长度与文本相比更长,远程依赖建模会带来明显更多的挑战。

为了缓解这些问题,一些方法比如 MAR 和 VAR 试图解决视觉自回归的难题。尽管这些方法在一些 benchmark 上取得了有希望的结果,但它们损害了语言模型中 “next-token prediction” 的模式。

SimpleAR 的目标是通过保持自回归框架的简洁性,希望做好自回归视觉生成,同时通过预训练、监督微调 (SFT) 和基于 GRPO 的强化学习 (RL) 仔细优化此范式。

SimpleAR 表明仅仅 0.5B 参数的 vanilla AR 模型即可生成具有高美学的 1024×1024 分辨率的图像,并在现有的 T2I benchamrk 上取得有竞争力的结果,例如 GenEval 分数 0.59。当给更多的算力 (即参数量和 token) 进行缩放时,SimpleAR 始终可以提高生成质量,具体表现在更高的保真度和更连贯的结构。这些结果突出了自回归视觉生成与扩散模型竞争的潜力。

此外,作者还研究了使用 vLLM 和 speculative sampling 的自回归视觉生成模型的推理加速。当与 vLLM 部署时,SimpleAR 可以在大约 14s 的时间内生成 1024×1024 图像,展示了它在实际应用中的潜力。

1.2 自回归图像生成

SimpleAR 的目标是通过在优化 training pipeline 和推理效率的同时保持 AR 框架的简洁性,来进行自回归视觉生成。

SimpleAR 由一个预训练的 visual tokenizer 组成,它将 image 离散化为紧凑的视觉 tokens,还有一个 text tokenizer 和 decoder-only transformer,该 transformer 自回归建模文本和图像 token 的联合分布。与需要额外 text encoder 的 Diffusion Model 或之前的 AR 模型比如 LLamaGen 不同,SimpleAR 在统一的 Transformer 架构中集成了文本编码和视觉生成,在效率和多模态一致性方面都取得了显著的优势。

给定一个输入图像  ,首先使用预训练的 tokenizer 将其转化为一系列离散的视觉 token  ,其中  表示压缩比。  中的每个 item 都表示 codebook 的 index,将一个 patch 映射到离散表征。然后,这些图像 token 按照光栅扫描排序,扁平化为一维序列 

SimpleAR 还有一个 text tokenizer,将文本提示转换为文本 token  。之后,将文本和图像 token 沿序列维度连接起来,并将它们输入到 Transformer Decoder 中,以建模它们的依赖关系。

1.3 三阶段训练策略

为了提高生成质量和训练效率,SimpleAR 采用了三阶段学习范式:

  1. 对不同视觉数据集进行大规模预训练,以捕获高质量数据上的一般泛化性的模式。
  2. 监督微调 (SFT) 以增强保真度和指令跟随能力。
  3. 强化学习 (RL) 进一步细化多模态对齐并减轻 bias。

预训练和 SFT

在预训练和微调 (SFT) 期间,SimpleAR 使用语言建模损失进行训练:

其中, 的预测以文本 token  及其之前的视觉 token  为 condition。

RL 与 GRPO

强化学习作为 LLM 的后训练范式,受到越来越多的关注,以提高推理能力。其也可以应用于 Diffusion Model[1][2],以更好地与人类偏好对齐。这些方法中,组相对策略优化 (Group Relative Policy Optimization, GRPO[3]) 通过提供更好的训练效率和稳定性已成为一种特别有前途的技术。

使用 SFT 后的 checkpoint,GRPO 初始化一个可训练的策略模型 和一个冻结的参考模型。对于给定的text prompt  ,它从策略模型  中采样一组输出  ,并最大化以下目标以优化  :

其中, 和  表示 clipping hyper-parameter 和控制 Kullback-Leibler(KL)惩罚的系数, 是在一个组中计算的优势。采用 CLIP 作为 reward,发现它在实验中非常有用。

1.4 SimpleAR 推理

在推理过程中,SimpleAR 通过这个条件概率依次对视觉 token 进行采样: $\hat{z_i}=\operatorname{argmax} p_\theta\left(z_i \mid z_{<i}, t\right)$=”” 。然后将采样的=”” token=”” 输入到=”” visual=”” tokenizer=”” 的解码器以生成图像。除非另有说明,否则贪婪搜索使用=”” top=”” $k=”64000$(codebook” 大小)。simplear=”” 还使用无分类器指导(classfier-free=”” guidance,cfg)来提高生成质量。<=”” p=””>

推理加速

由于自回归 (Autoregressive, AR) 模型中的 token 预测必须按顺序执行,因此推理延迟可能是一个重大瓶颈。

好在,LLM 社区已经开发了各种优化用于推理加速,如 KV cache 和 paged attention,为这个问题提供了有前景的解决方案。SimpleAR 探索了这些技术的应用来加速基于 AR 的视觉生成。

KV Cache 从注意力层存储先前计算的 key-value embeddings,并在自回归解码步骤中重用它们以减少冗余计算。它广泛应用于 LLM 推理,可以将复杂度从 降低到  。

vLLM Serving 利用优化的内存管理和高效的注意力机制,例如 paged attention,以实现现代硬件上自回归模型的高吞吐量和低延迟推理。

Speculative Jacobi Decoding 通过从 draft model 中对多个候选 token sequences 进行采样来加速自回归生成,然后使用 target model 来高效地验证它们。作者使用预训练的 AR 模型作为 draft model 和 target model 来进行加速。

1.5 实验设置

Transformer 模型采用与 Qwen 相同的架构,并用 LLM 权重初始化。visual tokenizer 使用 Cosmos-Tokenizer,其 codebook 大小为 64K,下采样比为 16。

训练包括 3 个阶段:1) 512 分辨率预训练。2) 1024 分辨率 SFT。3) 1024 分辨率 RL。在预训练 / SFT 期间,学习率设置为 1e-4 / 2e-5,batch size 为 256。RL 训练采用 trl 框架进行,学习率为 1e-5,batch size 为 28。在每个阶段不使用 warm up 和 learning rate decay。AdamW 优化器用于优化。所有实验均在 32 个 NVIDIA A100 GPU 上进行。

训练数据

预训练数据包括 CC3M、CC12M、OpenImages、SAM1B 和 Megaith-huggingface (总共约 43M)。

SFT 数据使用 JourneyDB、Synthetic dataset-1M 和 10M 内部数据。

对 SFT 采用一种简单的数据过滤策略,删除短边小于 1024 像素的所有图像。使用 Qwen2-VL recaption 所有图像,并在训练期间从长提示和短提示中随机选择。

1.6 实验结果

图 2 展示了 SimpleAR 和现有的最先进的视觉生成模型之间的比较。值得注意的是,在只有 0.5B 参数的情况下,SimpleAR 在 t2i 基准上实现了卓越的性能,即 GenEval 上的 0.59 的分数和 DPG-Bench 上的 79.66 得分,大大优于参数量相当的方法 (参数少于 1B 的方法)。包括基于 Diffusion 的方法 (例如 SDv2.1) 和自回归替代方案(例如 LlamaGen)。值得注意的是,Diffusion Model 还需要辅助 text encoder (例如,具有 3B 参数的 Flan-T5-XL),这也会增加参数,但 SimpleAR 使用 unified transformer 处理两种模态,参数利用更加高效,而且自然地支持条件生成。

图2:GenEval 和 DPG benchmark 评估。† 结果带有提示重写。这里只将 next-token prediction 模型分类为 AR 方法,将下一个尺度预测模型 Infinity 分类为 NAR (非自回归) 方法

将 SimpleAR 缩放到 1.5B 会进一步改进文生图性能 (GenEval +0.04,DPG-Bench +1.85),展示出类似 LLM 的可预测的缩放行为。尽管 SimpleAR 在 GenEval 上仍然落后于 Infinity,但这一差距可能是由于训练数据量的差异,并且可以通过数据缩放缩小。

RL 消融实验

对于基于 GRPO 的强化学习,作者比较了 2 种不同的 reward module:CLIP-ViT-H-14 和 HPSv2。值得注意的是,HPSv2 是 CLIP-ViT-H-14 的微调版本,在专门设计的人类偏好数据集上进行训练。GenEval 性能在图 3 中定量比较,观察到使用两个奖励模块可以提高性能,而且 CLIP 奖励模型实现了更高的性能增益,0.5B 模型的 GenEval 提高了 +0.6。定性结果如图 4 所示,进一步表明 CLIP 可以增强文本渲染能力,并提高对量词和空间描述的感知。

图3:SFT/RL 模型的 GenEval 性能,TO: two objects, P: position, CA: color attribute
图4:GRPO 前后的生成结果

作者绘制了奖励值和 GenEval 性能,如图 5 所示。从左侧可以看出,奖励值在训练期间表现出逐渐增加。有趣的是,GenEval 性能与奖励进展呈正相关,这表明一个简单的奖励函数,即 CLIP-ViT-H-14,可以有效地提供与所需任务性能很好地对齐的一致反馈。

图5:GRPO 训练的可视化:奖励和 GenEval 的整体性能

推理速度

自回归模型的顺序预测性质可能会导致高推理延迟,使得实时应用程序中部署中很有挑战性。然而,LLM 优化技术的最新进展,如 KV cache, paged attention, 和 speculative decoding,为加速 AR 视觉生成模型推理提供了机会。作者实验应用这些方法来加速 SimpleAR 的推理。吞吐量是在 Nvidia A100 节点上计算的,启用 CFG。

图 6 表明,使用 KV cache 可以有效地节省 34% 的推理时间,而使用 vLLM 服务会导致更多的显着推理加速,将生成 1024×1024 图像的时间减少到 13.55s。

图6:w/ KV Cache 和 vLLM 的推理速度比较

作者还尝试了 speculative jacobi decoding (SJD),它在推理时推测并行解码多个 token 以减少自回归生成步骤。结果如图 7 所示,可以看到 SJD 可以在步骤减少约 2×,在 DPG 上的性能略好。作者还比较了 sliding-window 设计。尽管 SJD 实际上并没有降低自回归模型的测试延迟 (无法使用 KV cache,每次需要转发整个序列),但它仍然为优化 AR 推理过程提供了许多可能性。

图7:Speculative Jacobi Decoding

作者在图 8 和图 9 中可视化了 SimpleAR 的图像生成结果。可以观察到,SimpleAR 不仅可以生成高保真、美观的图像,还可以表现出强大的指令跟随能力。

图8:SimpleAR 使用 DPG prompt 的文生图结果
图9:SimpleAR 使用 GenEval prompt 的文生图结果

图 10 还显示了几个失败案例。有限的数据规模和参数大小约束 SimpleAR 生成复杂的姿势、对象和文本的能力。此外,SimpleAR 可以合成不符合物理定律的内容。

图10:SimpleAR 的 failure case

参考

  1. Aligning Text-to-Image Models using Human Feedback
  2. Diffusion Model Alignment Using Direct Preference Optimization
  3. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models


(文:极市干货)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往