SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题? 2025-06-16 作者 机器之心 近日提出的一种两阶段训练框架ReasonGen-R1结合监督微调与强化学习提升自回归图像生成模型的推理和创作能力。