Light-R1:从零复现满血版DeepSeek-R1

Ligth-R1是第一个从零复现满血版 DeepSeek-R1 的工作(几个小时后QWQ-32B发布),虽然大家都在关注 QWQ-32B,但是 QWQ-32B 只开源了模型,而我们把模型、数据、代码全部都开放出来了。

  • Light-R1-32B:从零复现满血版 DeepSeek-R1;

  • Light-R1-32B-MATH:在 DeepSeek-R1-Distill-Qwen-32B 基础上,只需 3K 数据接近满血版 DeepSeek-R1;

  • Light-R1-14B-MATHRL:首次在 14B 模型上复现强化学习效果,表现超过 32B 的 DeepSeek-R1-Distill-Qwen-32B 模型。

参考文献:
[1] 项目地址:https://github.com/Qihoo360/Light-R1
[2] 模型地址:https://huggingface.co/qihoo360/Light-R1-32B
[3] 数据开源地址:https://huggingface.co/datasets/qihoo360/Light-R1-SFTData
[4] Light-R1:从零复现满血版DeepSeek-R1:https://zhuanlan.zhihu.com/p/29512088325



(文:NLP工程化)

欢迎分享

发表评论