10美元成功复现DeepSeek顿悟时刻,3B模型爆发超强推理!微软论文反驳涌现 下午4时 2025/02/22 作者 新智元 的顿悟时刻了?来自荷兰的开发者采用轻量级的RL算法Reinforce-Lite,把复刻成本降到了史上
DeepSeek-R1-Zero不存在顿悟时刻?华人团队揭秘真相:或只因强化学习 下午11时 2025/02/08 作者 新智元 ek-R1-Zero的「顿悟时刻」,可能并不存在。类似复现实验中之所以出现响应变长现象,或许只是因为