GSM8K-RLVR:用强化学习提升语言模型的数学解题能力 上午8时 2025/02/15 作者 NLP工程化 GSM8K-RLVR利用强化学习提升语言模型数学解题能力,Qwen2.5-Math-1.5B模型准确率从70.66%提升至77.33%,简化提示格式无需复杂标签。