DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究 2025年6月19日23时 作者 机器之心 该研究比较了DPO和GRPO在自回归图像生成中的应用效果,发现DPO在域内任务上表现更好,而GRPO在域外泛化能力上更出色。研究还探讨了不同奖励模型及扩展策略对这两种算法的影响。