200多行代码,复旦大学超低成本复现DeepSeek R1「Aha Moment」!
复旦大学知识工场实验室团队基于 GRPO 算法高效复现 R1-zero 自发反思能力,项目代码简洁、依赖简单,资源消耗低。
复旦大学知识工场实验室团队基于 GRPO 算法高效复现 R1-zero 自发反思能力,项目代码简洁、依赖简单,资源消耗低。
从零实现DeepSeek R1的强化学习项目,探索GRPO算法的应用,仅用单个H100 GPU400步训练提升模型性能,完全自研且提供多脚本结构。
多位DeepSeek人才拥有国内外复合背景,他们选择回国投身中国的AI产业而非留在美国公司工作。梁文锋的公司不鼓励内部竞争和加班,并给予员工极大的自由度。DeepSeek吸引人才的方式独特且成功,其研究成果受到关注并获得了广泛关注。