CoR机制归档 - 每时AI

从打分器到思考者：RM-R1用推理重塑模型价值判断

2025年5月31日23时作者机器之心

言模型的后训练阶段，奖励模型承担着桥接模型行为与人类价值的重要职责；但现有模型往往只给出一个分数，却