为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维 下午4时 2025/06/08 作者 机器之心 本文研究了语言模型对强化学习中奖励噪声的鲁棒性,即使翻转大部分奖励也能保持高下游任务表现。作者提出了思考模式奖励机制,并展示了其在数学和AI帮助性回复生成任务中的有效性。