继Qwen3、DeepSeek之后微软重磅开源Phi4推理大模型:新一轮百模大战开始了

我们打造了一个全新的开源权重推理模型:Phi-4,参数量为14B,基于约 140 万条精心策划的推理示例进行了监督微调(SFT),并进行了少量强化学习(RL)训练。这个模型表现惊人,简直是“小钢炮”。

就在我们还在热议Qwen3和DeepSeek V2等旗舰模型的表现时,微软悄然发布了一个轻量级但极具潜力的新模型:Phi-4 推理模型

微软研究团队一直在 LLM 推理能力的研究上不遗余力。此次发布的 Phi-4 模型,仅有 14B 参数,但在诸如 AIME(美国数学邀请赛)、HMMT(哈佛-麻省理工数学竞赛)、OmniMath 等数学推理测试中,表现甚至超越了体量更大的 Qwen3-32B、DeepSeek R1-70B,以及一些闭源模型如 o1-mini 和 sonnet 3.7。

📊小模型,大表现

尽管参数体积较小,Phi-4 在 AIME、GPQA 等推理测试中,表现优于刚发布不久的 Qwen3-32B。虽然尚未完全对比完毕,但初步结果令人震撼。

Phi-4 不仅可以在配置较强的笔记本上运行,还能解决许多大型非推理模型无法解答的谜题——甚至通过了 DimitrisEval 测试。

🤯推理能力竟可迁移!

Reasoning seems to be a real, transferable, meta-skill, learnable even via SFT alone!!

令人惊讶的是,Phi-4 的推理能力似乎是一种可以迁移的元技能,甚至只通过监督微调(SFT)就能习得!

例证一:

即使没有显式训练非推理任务,Phi-4 在 IFEval、FlenQA 和内部的 PhiBench 上也实现了超过10分的提升。

此外,SFT 阶段的代码数据比例非常低(RL 阶段甚至完全没有代码数据),但模型在 LCB 和 Codeforces 上仍能达到与 o1-mini 相当的水平。值得期待的是,未来版本将重点优化编程能力。

例证二:

即便在 SFT 和 RL 阶段完全未训练的问题类型,如旅行商问题、迷宫求解、k-SAT 和受约束规划等,Phi-4 也展现出惊人的能力,远胜 GPT-4 与旧版 Phi 模型。

🔁6k 条 RL 样本 = 性能飞跃

Phi-4 仅用 6k 个示例(vs 140 万 SFT 示例)进行了简短的 RL 训练,结果令人震撼:

  • AIME/HMMT 准确率提升约 10%

  • 在更难问题上的回答长度平均增长 50%

  • 推理机制“锁定”后,回答分布更加集中,准确率更高

这也呼应了微软研究团队在《Self-Improvement in Language Models: The Sharpening Mechanism》中的发现:RL 可以精细化模型能力!

https://arxiv.org/abs/2412.01951

🚀“超越老师”的自我进化

Phi-4 多次在“pass@1”指标下超越了它的老师模型 o3-mini。

例如在 OmniMath 和 Calendar Planning 中。

这种“优于教师”的现象,可能得益于良好的 prompt 设计与 RL 训练策略,使模型在学习的过程中产生“自我改进”。

🔍其他

  • 回答越长 ≠ 越准:前 25% 长度的回答更容易出错,但整体而言,平均回答越长,准确率越高。

  • 模型卡壳时会“唠叨”:测试时观察到模型在难题上会生成大量冗长内容(感谢 @AlexGDimakis 的观察)。

⚠️当前限制

  • 尚未拓展/测试 32k token 以上输入能力

  • 简单问题上容易“过度思考”

  • 多轮对话能力尚未深入测试

📦模型信息与试玩地址

Phi-4 推理模型基于 MIT 许可,体积小、性能强,适合在普通 GPU 上进行微调或 RL,是生成高质量推理样本的绝佳工具。

  • 👉 SFT 模型地址

    https://huggingface.co/microsoft/Phi-4-reasoning

  • 👉 SFT+RL 模型地址

    https://huggingface.co/microsoft/Phi-4-reasoning-plus


(文:PyTorch研习社)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往