BiCoT-GRPO 归档

「R1时刻」降临！港中文MMLab定义文生图新范式，彻底告别“无脑画图”

2025年5月14日16时作者 PaperWeekly

最近的大语言模型在数学和编程等领域展示了强大的推理能力，通过强化学习使用思维链逐步分析问题。本文介绍了一种新的方法将这种策略应用于图片生成任务中，提出了两种不同的层次的思维链（CoT）：Semantic-CoT负责设计图像的整体结构，而Token-CoT则专注于逐块生成细节。通过使用强化学习优化这两个层次的CoT，并引入多个视觉专家模型作为奖励模型来评估生成的图片质量，最终提出了一种新的文生图模型T2I-R1，显著提高了模型生成符合人类期望的结果的能力。

文生图进入R1时代：港中文MMLab发布T2I-R1，让AI绘画“先推理再下笔”

2025年5月13日16时作者量子位

港中文MMLab团队发布首个基于强化学习的推理增强文生图模型T2I-R1，通过双层级CoT推理框架和BiCoT-GRPO强化学习方法实现了高效的图像生成。该模型在多个基准测试中表现出色，并展示了其在理解与生成任务中的有效性。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30