Light-R1：从零复现满血版DeepSeek-R1

Ligth-R1是第一个从零复现满血版 DeepSeek-R1 的工作（几个小时后QWQ-32B发布），虽然大家都在关注 QWQ-32B，但是 QWQ-32B 只开源了模型，而我们把模型、数据、代码全部都开放出来了。

Light-R1-32B：从零复现满血版 DeepSeek-R1；
Light-R1-32B-MATH：在 DeepSeek-R1-Distill-Qwen-32B 基础上，只需 3K 数据接近满血版 DeepSeek-R1；
Light-R1-14B-MATHRL：首次在 14B 模型上复现强化学习效果，表现超过 32B 的 DeepSeek-R1-Distill-Qwen-32B 模型。

参考文献：
[1] 项目地址：https://github.com/Qihoo360/Light-R1
[2] 模型地址：https://huggingface.co/qihoo360/Light-R1-32B
[3] 数据开源地址：https://huggingface.co/datasets/qihoo360/Light-R1-SFTData
[4] Light-R1：从零复现满血版DeepSeek-R1：https://zhuanlan.zhihu.com/p/29512088325

（文：NLP工程化）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

发表评论取消回复