冷启动激发归档

首个多模态统一CoT奖励模型来了，模型、数据集、训练脚本全开源

2025年5月13日23时作者机器之心

腾讯混元等联合提出的新模型UnifiedReward-Think能进行长链式推理，首次让奖励模型在视觉任务上真正 ‘学会思考’。该研究提出了三阶段训练框架，并展示了其在多个视觉任务中的出色表现和可靠性。