2-3周归档 - 每时AI

最新！DeepSeek研究员在线爆料：R1训练仅用两到三周，春节期间观察到R1 zero强大进化

2025年2月4日23时作者 AI寒武纪

春节假期最后一天祝大家蛇年上班快乐。DeepSeek研究员过年都没歇，春节期间透露了DeepSeek R1模型性能持续提升的信息，并对强化学习的潜力表示乐观。Daya Guo解释了R1-Zero模型仍处于早期阶段且具备泛化能力，以及其未来可能的应用方向如形式化证明环境等。