万径归于「概率」,华人学者颠覆认知!英伟达大牛力荐RL微调新作 下午4时 2025/05/10 作者 新智元 调的价值,深度解释了AI训练「两阶段强化学习」的原因。某种意义上,他们的论文说明RL微调就是统计。