7B的DeepSeek蒸馏Qwen数学超o1!在测试时间强化学习,MIT积分题大赛考93分

DeepSeek研究团队发表LADDER论文,介绍一种通过递归问题分解和强化学习提升AI模型能力的新方法。该方法使7B规模的Qwen模型在MIT Integration Bee比赛中得分达到90分,超越了o1的成绩。