多知1月11日消息,微软近日宣布了其新的 rStar-Math 技术,这一创新的推理方法可以应用于小型语言模型(SLMs),该技术目前仍处于研究阶段,相关研究论文已发布在 arXiv.org 上,由微软、北京大学和清华大学的八位作者共同完成。
rStar-Math核心在于,让小模型具备深度思考的能力,利用蒙特卡罗树搜索,这种方法模拟人类的 “深度思考”,通过逐步细化数学问题的解决方案来帮助小型模型自我演进。
在测试中,rStar-Math 技术被应用于多个小型开源模型,包括微软的 Phi-3迷你模型、阿里巴巴的 Qwen-1.5B(15亿参数模型)和 Qwen-7B(70亿参数模型)。测试结果显示,所有参与的模型性能都有所提升,其中在 MATH 基准测试中,rStar-Math 甚至超越了 OpenAI OpenAI o1-preview。
rStar-Math除了基准测试成绩亮眼,对比优势也十分明显。它能显著提升小型语言模型的推理能力,在模型规模远小于竞争对手的情况下,超越了许多现有的 System 2 基线方法。它在不同类型的数学基准测试中都具有很强的泛化能力,在 Olympiad Bench、College Math 和高考数学等测试中均取得了新的领先成绩。
微软通过 rStar-Math 展示了小型模型的潜力,强调了高效能的方向。
论文地址:
https://arxiv.org/pdf/2501.04519
(文:多知)