next-token归档 - 每时AI

「Next-Token」范式改变！刚刚，强化学习预训练来了

下午4时 2025/06/11 作者机器之心

机器学习研究者提出一种名为”强化预训练”的新方法，它将下一个 token 预测任务重构为对 next-token 的推理过程。通过可验证奖励的强化学习，这种方法利用海量无标注文本数据进行通用预训练，显著提升语言建模准确性，并有望推动大模型发展的有效路径。