DeepSeek-R1解读:纯强化学习,模型推理能力提升的新范式? 下午10时 2025/01/27 作者 Datawhale LLM模型通过纯强化学习提升推理能力,并提出无需监督数据的新方法。端侧模型性能提升主要依赖蒸馏而非强化学习,DeepSeek-R1-Zero展示了自我进化能力及语言一致性奖励的应用。