Light-R1:从零复现满血版DeepSeek-R1 上午8时 2025/03/14 作者 NLP工程化 Light-R1是首个从零复现DeepSeek-R1的工作,开源了模型、数据和代码;包括32B版本和基于Distill-Qwen-32B的改进版;在14B上首次实现强化学习效果。