为什么GPT-5也怕这个技术?DeepSeek-R1的推理设计和训练原理 下午2时 2025/04/01 作者 AI技术研习社 ntivizing Reasoning Capability in LLMs via Reinfor
DeepSeek-R1解读:纯强化学习,模型推理能力提升的新范式? 下午10时 2025/01/27 作者 Datawhale LLM模型通过纯强化学习提升推理能力,并提出无需监督数据的新方法。端侧模型性能提升主要依赖蒸馏而非强化学习,DeepSeek-R1-Zero展示了自我进化能力及语言一致性奖励的应用。