DeepSeek-R1发布100天后:全面复盘推理大模型复现研究及未来! 下午7时 2025/05/06 作者 PaperAgent RLMs的最新发展及其复现研究总结,强调监督微调和基于可验证奖励的强化学习方法的重要性,并讨论了数据构建、训练策略和奖励设计的关键要素。
10美元成功复现DeepSeek顿悟时刻,3B模型爆发超强推理!微软论文反驳涌现 下午4时 2025/02/22 作者 新智元 的顿悟时刻了?来自荷兰的开发者采用轻量级的RL算法Reinforce-Lite,把复刻成本降到了史上