MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

来源 | 深度学习自然语言处理

AI自我进化，无需人工标注的强化学习来了！

过去，训练模型就像教小孩做题——必须提前准备好标准答案（标注数据）。但现实中，许多任务根本没有现成答案，比如解一道全新的奥数题。如何让AI在没有答案的情况下自我提升？

论文：TTRL: Test-Time Reinforcement Learning
链接：https://arxiv.org/pdf/2504.16084

这篇论文提出的TTRL（Test-Time强化学习） 给出了答案：让AI自己生成答案，通过“投票”选出共识，再用共识作为奖励信号驱动学习。简单来说，就是让AI“自己出题、自己批改、自己进步”。

TTRL是什么？

面对一个问题（比如数学题），LLM先用当前能力生成N个答案（比如64个），相当于“多思考几种解法”。

统计所有答案中出现次数最多的结果，作为“参考答案”。这一步类似“群众的眼睛是雪亮的”——多数人认可的答案更有可能是正确的。

根据生成的答案是否与“参考答案”一致，给AI打分：

即：

实验：数学题正确率飙升159%，模型越用越聪明

论文在多个数学推理任务上测试TTRL，结果惊人：

更厉害的是：

即使投票选出的“参考答案”是错的，只要AI生成的答案与它不一致，也能获得正确反馈。比如：

TTRL依赖模型已有的知识（比如数学公式理解能力）。如果模型太“笨”（如1.5B小模型），可能连投票都选不出靠谱答案，导致学习失败。

如果模型本身知识储备不足（比如LLaMA-8B在奥数题上正确率仅3.3%），TTRL也无法帮它逆袭。

学习率、采样温度等参数需要精心调整。例如：

TTRL的潜力远不止数学题：

论文作者也提出了下一步方向：

TTRL的核心价值在于：打破标注数据的枷锁，让AI真正“自主学习”。虽然目前主要用于数学推理，但其方法论可能重塑AI的训练范式。未来，我们或许会看到更多“越用越聪明”的模型，悄然改变各行各业。

（文：机器学习算法与自然语言处理）