Light-R1-32B之R1复现认识:兼看R1蒸馏模型所用800K数据细节问题
今天是2025年3月14日,星期五,北京天气晴。Light-R1-32B复现了R1的效果,但限定于数学领域AIME24、AIME25、GPQA Diamond等数据集;同时指出R1蒸馏模型所用800K数据是否来自训练还是由R1生成尚存争议。
今天是2025年3月14日,星期五,北京天气晴。Light-R1-32B复现了R1的效果,但限定于数学领域AIME24、AIME25、GPQA Diamond等数据集;同时指出R1蒸馏模型所用800K数据是否来自训练还是由R1生成尚存争议。
上海AI Lab/清华哈工大/北邮团队的研究表明,通过改进Test-Time Scaling(TTS)方法,在数学推理任务上提升了小模型的性能。该研究发现最优的TTS方法高度依赖于具体的策略模型、过程奖励模型和问题难度。