NLP 实验室归档

清华团队靠强化学习让 7B 模型打败GPT-4o数学推理

上午8时 2025/01/09 作者 AIGC开放社区

专注AIGC领域的专业社区分享了PRIME（Process Reinforcement through IMplicit REwards）算法在训练数学能力强大的7B模型方面的进展，该方法仅用8张A100、花费一万左右的成本，在不到10天内高效训练出了一个超过GPT-4和Llama-3.1-70B的7B模型Eurus-2-7B-PRIME，实现美国IMO选拔考试AIME 2024中准确率提升至26.7%。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30