清华大学 NLP 实验室归档

强化学习上大分！清华团队训练出数学推理超越 GPT-4o 的 7B 模型

下午11时 2025/01/06 作者 AI科技大本营

清华大学团队提出PRIME方法，仅用8张A100和约1万块花费训练出数学能力超过GPT-4、Llama-3.1-70B的Eurus-2-7B-PRIME模型，在美国IMO选拔考试中准确率达到26.7%，远超基线模型。该方法采用隐式过程奖励解决大模型强化学习中的关键问题，未来有望推动复杂推理能力提升。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30