OpenBMB社区归档

仅需一万块钱！清华团队靠强化学习让 7B模型数学打败GPT-4o

2025年1月6日16时作者量子位

清华大学等团队提出PRIME方法，仅用8张A100，在不到10天时间训练出一个数学能力超过GPT-4o的7B模型Eurus-2-7B-PRIME，准确率提高显著。该方法采用隐式过程奖励解决大模型强化学习中的奖励稀疏问题，有望推动复杂推理能力提升。