直接偏好优化归档 - 每时AI

DPO与GRPO谁更胜一筹？港中文、北大等联合发布首个系统性对比研究

2025年6月19日23时作者机器之心

该研究比较了DPO和GRPO在自回归图像生成中的应用效果，发现DPO在域内任务上表现更好，而GRPO在域外泛化能力上更出色。研究还探讨了不同奖励模型及扩展策略对这两种算法的影响。

8张GPU训出近SOTA模型，超低成本图像生成预训练方案开源

2025年3月18日11时作者量子位

港科大Harry Yang团队联合Everlyn AI提出LightGen模型，仅需8张GPU训练即可实现近SOTA的高质量图像生成效果。该模型采用数据蒸馏和直接偏好优化策略，显著降低了数据规模与计算资源需求。

73页，开源「后训练」全流程！AI2发布高质量Tülu 3系列模型，拉平闭源差距，比肩GPT-4o mini

2024年12月10日16时作者新智元

新智元报道
编辑：LRS
【新智元导读】
Allen Institute for AI（AI2）发布

美欧亚三洲开发者联手，全球首个组团训练的大模型来了，全流程开源

2024年12月2日13时作者机器之心

机器之心报道
编辑：佳琪、Panda
11 月 22 日，Prime Intellect 宣布通过去