深度可解释性归档 - 每时AI

从打分器到思考者：RM-R1用推理重塑模型价值判断

下午11时 2025/05/31 作者机器之心

言模型的后训练阶段，奖励模型承担着桥接模型行为与人类价值的重要职责；但现有模型往往只给出一个分数，却