10美元成功复现DeepSeek顿悟时刻,3B模型爆发超强推理!微软论文反驳涌现 下午4时 2025/02/22 作者 新智元 的顿悟时刻了?来自荷兰的开发者采用轻量级的RL算法Reinforce-Lite,把复刻成本降到了史上