200多行代码,超低成本复现DeepSeek R1「Aha Moment」!复旦大学开源 下午12时 2025/02/18 作者 机器之心 复旦大学知识工场实验室团队基于 GRPO 算法高效复现了 R1-zero 自发反思能力,项目代码简洁,仅依赖基础库实现,训练 7B 模型成本低至 7.3 元。