清华提出Test-Time RL,无需标注,模型自学,正确率飙升159%,实现终身学习 下午2时 2025/04/24 作者 机器学习算法与自然语言处理 MLNLP社区致力于促进国内外机器学习与自然语言处理的交流合作。论文介绍了一种无需标注数据的新方法TTRL,展示了其在数学推理任务上的显著提升效果。
1.5B硬刚GPT-4o,CMU祭出LCPO提示可控思考!每token性能较S1暴涨2倍 下午11时 2025/03/09 作者 新智元 1模型,结果令人震惊:在数学推理任务中,它比S1相对提升100%以上,在逻辑推理和MMLU等非训练任