极市导读
本文介绍了香港中文大学、北京大学和上海AI Lab的研究者们提出的将思维链推理应用于文生图的新方法。研究通过测试时验证和直接偏好优化(DPO)等策略,结合新提出的潜力评估奖励模型及其改进版本PARM++,显著提升了自回归图像生成的质量和文本一致性,为文生图领域带来了新的研究方向。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
随着OpenAI o1向社区展示了思维链Chain-of-Thought(CoT)对于大模型推理能力的强大提升,各种基于强化学习RL和提升test-time推理成本的方案已经在大模型理解领域取得了很大的进展。然而,在图像生成(Image Generation)领域,例如文生图(Text-to-Image)与文生视频(Text-to-Video),我们是否也可以借鉴CoT相关的策略,来提升图片或视频的质量和文本一致性呢?
来自香港中文大学、北京大学、和上海AI Lab的研究者们通过Verify和Reinforce的方案,系统地探索了“CoT推理+文生图”的结合与潜力。研究表明,这些方法能够显著提高自回归(Autoregressive)图像生成的质量。作者还针对这一任务提出了两种全新的奖励模型——潜力评估奖励模型(Potential Assessment Reward Model, PARM)及其改进版本PARM++。其中,PARM++融入了反思机制(Reflection Mechanism),进一步提升了图像生成的效果。
论文标题:Can We Generate Images with CoT? Let’s Verify and Reinforce Image Generation Step by Step 论文地址:https://arxiv.org/pdf/2501.13926 项目地址:https://github.com/ZiyuGuo99/Image-Generation-CoT
研究背景与挑战
目前,CoT(Chain-of-Thought)推理已在大语言模型(LLM)和多模态大模型(LMM)中广泛应用,特别是在数学推理和科学计算等任务中表现出卓越能力。然而,在自回归图像生成任务中,如何有效地验证(Verify)和强化(Reinforce)生成过程仍然是未解的关键问题。本文系统性地探讨了“CoT推理+文生图”的可行性和潜力。左图展示了现有的“CoT推理+解数学题”的研究框架,而右图则展示了本文对“CoT推理+文生图”任务的全面探索。
研究团队发现,自回归图像生成和LLM/LMM在推理架构上具有相似性,包括以下两方面:
-
离散化Token表示:无论是语言还是图像数据,自回归模型都通过量化为离散的Token,逐步生成输出。 -
逐步解码(Step-by-Step Decoding):类似于CoT在数学推理中的分步解析,自回归图像生成同样能够逐步生成中间图像,并在过程中实现验证与优化。
CoT 如何应用于图像生成?
鉴于自回归图像生成与LLM在数据表征和推理架构上的相似性,本文首次验证了“CoT+文生图”的可行性。研究包括以下方法:Test-time Verification、偏好排序数据构建(Preference Ranking Data)、以及通过DPO(Direct Preference Optimization)实现偏好对齐。同时,本文提出了两种全新的奖励模型——潜力评估奖励模型(PARM)和其改进版本PARM++,以进一步优化图像生成质量。实验结果表明,这些推理策略显著提升了自回归图像生成的性能。
具体方案
本文以“文生图”为研究场景,基于Show-o模型进行研究,方法分为三个核心部分:
1、测试时验证(Test-time Verification)
作者通过奖励模型(Reward Model, RM)对生成结果进行测试时验证,实现了Outcome Reward Model(ORM,下图左边部分)和Process Reward Model(PRM,下图中间部分)方案,并在两者的基础上提出了两种全新的针对于图像生成任务的Potential Assessment Reward Model(PARM,下图右边部分)和PARM++。
1.1. 结果奖励模型(Outcome Reward Model, ORM)
采用Best-of-N策略,从多次完整路径的生成结果中选择出质量最优的最终图像:
Zero-shot ORM:直接利用LLaVA-OneVision的7B模型,作为Zero-shot ORM进行图像质量评估。:
Fine-tuned ORM:为了进一步增强ORM的专业性能,作者也构建了大规模的图文reward data来得到fine-tuned ORM,数据形式如下图所示:
1.2. 过程奖励模型(Process Reward Model, PRM):
PRM针对每一步生成过程进行逐步评估,尝试通过Best-of-N选择质量最优的中间生成图像。然而,作者发现这一方法在图像生成早期受限于模糊图像,在后期生成阶段路径趋于相似,导致提升效果有限,如下图所示。
1.3. 潜力评估奖励模型(Potential Assessment Reward Model, PARM):
为结合ORM的高效性和PRM的细粒度逐步验证,作者提出了专为自回归图像生成任务设计的奖励模型——PARM。该模型通过以下步骤提升生成质量:
-
清晰度判断(Clarity Judgment):识别哪些中间步骤的图像已经足够清晰,可用于后续评估。 -
潜力性评估(Potential Assessment):分析当前生成路径是否有潜力生成高质量结果。 -
最佳选择(Best-of-N’ Selection):在高潜力路径中选择最优最终图像。
1.4. 潜力评估奖励模型++(Potential Assessment Reward Model++,PARM++)
如下图所示,在PARM的基础上,PARM++引入反思机制(Self-reflection),允许模型在生成错误时进行自我修正。具体而言,PARM++对最终生成图像进行评估,不符合文本描述的图像会触发自我修正过程,通过反馈重新生成结果。实验结果表明,PARM++使图像生成在物体数量、颜色和空间关系等方面表现更为准确,GenEval性能提升+10%。
2、直接偏好优化(Direct Preference Optimization, DPO)Alignment:
作作者进一步引入DPO进行偏好对齐,基于构建的288K图文排序数据训练模型,使生成结果更符合人类偏好。训练过程中采用最大似然优化,使模型输出倾向于更符合偏好的结果。初次DPO训练提升了GenEval性能+9%,通过迭代DPO进一步提升至+12%,超越 Fine-tuned ORM。
3、测试时验证与DPO结合:
研究还探索了将Test-time Verification与DPO结合的策略,在DPO训练的基础上应用验证筛选,进一步优化生成图像的质量与一致性。结合两种方法后,模型在GenEval指标上实现了整体提升+27%。,超越单独使用 DPO 或 Test-time Verification 的方案。
总体效果对比
下表展示了模型在GenEval基准上的总体性能比较,相比于现有的扩散模型和自回归模型,结果证明了在文本生成图像任务中使用CoT推理策略的潜力。
结论
本研究首次系统性地探讨了CoT推理策略在自回归图像生成中的适用性和潜在优势。通过全面的实验分析,验证了多种推理策略(如测试时验证、偏好对齐及其结合)在提升图像生成质量方面的显著效果。在此基础上,本文提出了两种专为自回归图像生成设计的奖励模型——潜力评估奖励模型(PARM)和PARM++。其中,PARM通过对逐步生成过程进行自适应评分提升质量,而PARM++引入反思机制(Self-reflection),实现了自我修正的生成策略。实验结果表明,CoT推理在自回归图像生成任务中展现了极大的发展潜力,为该领域的进一步研究指明了新方向,并为大模型推理能力的提升奠定了重要基础!
更多定性结果展示
采用Show-o作为基线模型,并与本文表现最佳的推理策略进行比较:将PARM与迭代DPO相结合,用于奖励模型指导和测试时间验证:
(文:极市干货)