DeepSeek R1-Zero 内幕大公开:原来“顿悟时刻”早就来了?还有 GRPO 的秘密 下午4时 2025/03/23 作者 AI寒武纪 新加坡国立大学与海航人工智能实验室团队提出了一篇关于R1-Zero-like训练的新论文。文章详细分析了基座模型和强化学习(RL)两大基石,并指出现有方法可能存在偏见问题,提出了改进方案。