DeepSeek-R1:通过强化学习提高大语言模型的推理能力 上午8时 2025/02/07 作者 NLP工程化 论文介绍了DeepSeek-R1-Zero和DeepSeek-R1两种推理模型,前者通过大规模强化学习训练,在没有监督微调下展现卓越推理能力,后者结合多阶段训练和冷启动数据优化其性能。