MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

来源 | 深度学习自然语言处理

模型评分为什么需要“会思考”？

过去，模型的“评分”就像老师只给分数不写评语——比如你问“哪个回答更好”，它只会输出一个数字或简单结论，但说不出理由。

这种“黑箱打分”有两个问题：

论文：RM-R1: Reward Modeling as Reasoning
链接：https://arxiv.org/pdf/2505.02387

而人类评分时会先列标准（比如“逻辑性”“安全性”），再逐条分析。论文团队从中获得灵感：像人类一样先思考再打分。

创新：让奖励模型学会“写评语”

论文提出ReasRM（推理奖励模型），核心是两阶段训练：

举个栗子：

<评分标准>  
1. 准确性（40%）：回答是否符合医学事实；  
2. 全面性（30%）：是否覆盖关键症状；  
...  
<分析>  
A回答提到“视力丧失”，但这是罕见症状，可能误导用户；  
B回答解释了“疼痛原因”，更准确...  
<最终结论>[[B]]

从“打分”到“推理”的跨越

模型会先判断问题是闲聊型（如客服对话）还是推理型（如数学题），再针对性生成评分标准。

公式简化版：
奖励函数 = 判断正确 + 保持输出稳定性

判断正确判断错误

论文在三大测试集上验证效果：

反常识发现：

团队已开源6个模型，欢迎大家使用 🎉

（文：机器学习算法与自然语言处理）