谢若冰归档 - 每时AI

为什么用错奖励，模型也能提分？新研究：模型学的不是新知识，是思维

下午4时 2025/06/08 作者机器之心

本文研究了语言模型对强化学习中奖励噪声的鲁棒性，即使翻转大部分奖励也能保持高下游任务表现。作者提出了思考模式奖励机制，并展示了其在数学和AI帮助性回复生成任务中的有效性。