整理了 Deepseek R1 发布到现在所有重要内容和社区工作。
-
复现对于 R1 的评估分数 -
复现 R1 训练管道,比如 GRPO -
合成数据生成流程,重现类似 R1 的推理数据集 -
市面上所有重要人物对于 R1 模型的表态 -
尝试复现 R1 的开源项目
参考文献:
[1] https://huggingface.co/blog/open-r1/update-1
[2] https://github.com/huggingface/open-r1
[3] https://huggingface.co/open-r1
(文:NLP工程化)