清华提出Test-Time RL,无需标注,模型自学,正确率飙升159%,实现终身学习

MLNLP社区致力于促进国内外机器学习与自然语言处理的交流合作。论文介绍了一种无需标注数据的新方法TTRL,展示了其在数学推理任务上的显著提升效果。