仅需1个数据,就能让大模型的数学推理性能大大增强? 下午11时 2025/05/09 作者 机器之心 最近研究发现仅使用一个数学训练数据就能大幅提升大型语言模型在数学推理任务上的表现,论文提出了1-shot RLVR方法,并展示了其在多个数学和非数学推理任务上的应用效果。