从打分器到思考者:RM-R1用推理重塑模型价值判断 下午11时 2025/05/31 作者 机器之心 言模型的后训练阶段,奖励模型承担着桥接模型行为与人类价值的重要职责;但现有模型往往只给出一个分数,却