200多行代码,复旦大学超低成本复现DeepSeek R1「Aha Moment」! 下午4时 2025/02/19 作者 PaperWeekly 复旦大学知识工场实验室团队基于 GRPO 算法高效复现 R1-zero 自发反思能力,项目代码简洁、依赖简单,资源消耗低。