逻辑谜题归档

英伟达揭示RL Scaling魔力！训练步数翻倍=推理能力质变，小模型突破推理极限

上午8时 2025/06/05 作者机器之心

NVIDIA团队提出ProRL框架，在2000步以上长期强化学习基础上，大幅提升大语言模型的推理能力。ProRL训练后模型在逻辑谜题等任务中表现出显著进步，不仅提高了解题准确率，还能生成新解法。研究揭示了长期RL训练的重要性及其对模型边界扩展的影响。

下午7时 2025/02/22 作者 Datawhale

前，UC伯克利的博士只用30美元，就复刻了DeepSeek中的顿悟时刻，震惊圈内。
这一次，来自荷兰