课程学习归档 - 每时AI

10美元成功复现DeepSeek顿悟时刻，3B模型爆发超强推理！微软论文反驳涌现

2025年2月22日16时作者新智元

的顿悟时刻了？来自荷兰的开发者采用轻量级的RL算法Reinforce-Lite，把复刻成本降到了史上