强化学习上大分!清华团队训练出数学推理超越 GPT-4o 的 7B 模型
清华大学团队提出PRIME方法,仅用8张A100和约1万块花费训练出数学能力超过GPT-4、Llama-3.1-70B的Eurus-2-7B-PRIME模型,在美国IMO选拔考试中准确率达到26.7%,远超基线模型。该方法采用隐式过程奖励解决大模型强化学习中的关键问题,未来有望推动复杂推理能力提升。
清华大学团队提出PRIME方法,仅用8张A100和约1万块花费训练出数学能力超过GPT-4、Llama-3.1-70B的Eurus-2-7B-PRIME模型,在美国IMO选拔考试中准确率达到26.7%,远超基线模型。该方法采用隐式过程奖励解决大模型强化学习中的关键问题,未来有望推动复杂推理能力提升。