数学推理任务归档

10步优化超越强化学习，仅需1条未标注数据！后训练强势破局

上午8时 2025/06/05 作者新智元

化，就能显著提升大模型在推理任务上的表现，甚至超越依赖大量数据和复杂奖励机制的强化学习（RL）。EM

MLNLP社区致力于促进国内外机器学习与自然语言处理的交流合作。论文介绍了一种无需标注数据的新方法TTRL，展示了其在数学推理任务上的显著提升效果。

下午11时 2025/03/09 作者新智元

1模型，结果令人震惊：在数学推理任务中，它比S1相对提升100%以上，在逻辑推理和MMLU等非训练任