优势归一化归档 - 每时AI

RL训练总崩溃？R1-Reward稳定解锁奖励模型Long-Cot推理能力

2025年5月9日16时作者 PaperWeekly

可以提供稳定的 reward，评估阶段可以选择更好的 sample 结果，甚至单独作为 evalua