数学解题能力归档

GSM8K-RLVR：用强化学习提升语言模型的数学解题能力

2025年2月15日8时作者 NLP工程化

GSM8K-RLVR利用强化学习提升语言模型数学解题能力，Qwen2.5-Math-1.5B模型准确率从70.66%提升至77.33%，简化提示格式无需复杂标签。