RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力 2025年5月9日16时 作者 PaperWeekly 可以提供稳定的 reward,评估阶段可以选择更好的 sample 结果,甚至单独作为 evalua