Qwen2.5-32B-Instruct
8块A100,32B碾压DeepSeek V3、o1-preview!普林斯顿北大首提分层RL推理
座。普林斯顿联手北大提出全新ReasonFlux框架,直接AIME上碾压o1-preiview。
仅
仅817样本超越o1-preview,上交大LIMO”少即是多”推理新范式
LIMO提出了一种新的假设:基础模型中已全面编码领域知识,在预训练阶段通过最少但精心策划的认知过程可以激发复杂的推理能力。使用817个高质量问题和相应的推理链进行监督式微调的Qwen2.5-32B-Instruct模型在数学基准测试中的表现显著优于先前的工作。
训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线
斯坦福大学和华盛顿大学的研究人员提出了一个新的测试时间扩展方法s1,仅使用1000个样本就实现了与OpenAI o1级别的预览性能。该方法通过预算强制来控制解码时间,并在数学问题上提升了27%的表现。
450美元训出o1!伯克利开源o1-preview平替
UC Berkeley发布Sky-T1-32B-Preview模型,在多个基准测试中与OpenAI的o1-preview平分秋色。该模型采用三步走战略:数据筛选、高效训练和全面评测,最终总成本不到450美元。研究显示高水平AI研发不需要天价预算,为社区开源贡献了力量。