仅817样本超越o1-preview,上交大LIMO”少即是多”推理新范式

复杂推理能力一直是大型语言模型(LLM)面临的挑战之一。LIMO(代码数据模型已全开源)提出了一种新的假设:“Less-Is-More Reasoning Hypothesis”(LIMO假设),即在预训练阶段已经全面编码了领域知识的基础模型中,复杂的推理能力可以通过最少但精心策划的认知过程演示来激发

LIMO(817 个样本)的表现优于o1-preview、QwQ-32B-Preview

LIMO vs RL Scaling:如果LLM本身已经具备推理能力,LIMO只是在激活它们的推理能力强化学习扩展(DeepSeek R1/OpenAI o1)则通过大规模的搜索和优化来发现推理路径

从LIMA到LIMO:Less is More的原则扩展到了数学领域!两个关键点:LLM已经在海量数学数据上进行了训练。推理链的质量比训练数据的数量更重要。

数据集构建
LIMO的数据集构建过程非常关键。从多个数据源收集了大量候选问题,并通过多阶段筛选过程,最终选择了817个高质量问题。这些问题的选择标准包括难度、普遍性和知识多样性。同时,还精心构建了高质量的推理链(reasoning chain),这些推理链具有清晰的结构、有效的认知支持和严格的验证。

不同数据质量下训练的模型的统计分析

训练方法
LIMO使用Qwen2.5-32B-Instruct模型进行监督式微调,采用DeepSpeed ZeRO-3优化和FlashAttention2技术,序列长度限制为16,384个token。
实验结论
LIMO仅使用817个精心策划的训练样本,就在AIME(美国数学邀请赛)基准测试中达到了57.1%的准确率,在MATH基准测试中达到了94.8%的准确率,显著优于以往的SFT模型。

在数学上比较 Qwen2.5、DeepSeek-R1 和 LIMO:LIMO 凭借深度自我反思和更长的推理链脱颖而出,为复杂方程式分配了额外的计算。

推理链质量的影响
推理链的质量对模型性能有显著影响。从基础(L1)到专家(L5)级别的解决方案测试表明,推理链的质量可能比想象的更为关键。

问题质量的影响
在MATH/AIME基准测试中,使用500个高级问题进行训练的表现优于使用500个简单问题。问题的选择质量也很重要!

https://arxiv.org/pdf/2502.03387LIMO: Less is More for Reasoninghttps://github.com/GAIR-NLP/LIMO

(文:PaperAgent)

欢迎分享

发表评论