DeepSeek-R1技术突破:基础模型强化学习+蒸馏小模型超越o1-mini 下午10时 2025/01/20 作者 PaperAgent DeepSeek-R1正式发布,API上线、技术报告公开、开源8个模型,涵盖从小至32B的多种规模。报告亮点包括后训练RL和流水线开发技术,并证明了小模型也能达到强大性能。