Qwen2.5-Math-1.5B 归档

仅需1个数据，就能让大模型的数学推理性能大大增强？

2025年5月9日23时作者机器之心

最近研究发现仅使用一个数学训练数据就能大幅提升大型语言模型在数学推理任务上的表现，论文提出了1-shot RLVR方法，并展示了其在多个数学和非数学推理任务上的应用效果。

2025年2月15日8时作者 NLP工程化

GSM8K-RLVR利用强化学习提升语言模型数学解题能力，Qwen2.5-Math-1.5B模型准确率从70.66%提升至77.33%，简化提示格式无需复杂标签。