MMLab@HKU 归档 - 每时AI

DanceGRPO：首个统一视觉生成的强化学习框架

2025年5月14日23时作者机器之心

本文介绍了一种名为 DanceGRPO 的强化学习框架，在视觉生成任务中实现了统一优化。该方法通过 GRPO 策略在 Diffusion 和 Rectified Flow 模型上进行了测试，并覆盖了文本到图像、视频等多种任务，展示了其在不同基础模型上的有效性及对多种奖励模型的适应性。