看DeepSeek R1的论文时,我突然想起了AlphaGo 下午10时 2025/01/28 作者 机器学习算法与自然语言处理 MLNLP社区介绍了DeepSeek R1论文,并重点提到了基于规则的奖励模型和多阶段训练策略,作者通过与AlphaGo的对比分享了个人见解。文章还提及技术交流群邀请函和MLNLP社区介绍。