爆火论文颠覆RL认知!「错误奖励」让LLM推理暴涨24.6%,学界惊了 下午11时 2025/05/28 作者 新智元 LM推理性能暴涨24.6%,一举颠覆传统的RL训练认知。 今早的一篇爆火论文,彻底颠覆了人们对「强化