7B模型训练归档 - 每时AI

200多行代码，复旦大学超低成本复现DeepSeek R1「Aha Moment」！

2025年2月19日16时作者 PaperWeekly

复旦大学知识工场实验室团队基于 GRPO 算法高效复现 R1-zero 自发反思能力，项目代码简洁、依赖简单，资源消耗低。