微软开源新版ph4:媲美DeepSeek-R1,参数暴降48倍

微软在官网开源了三个新版Phi-4小参数模型,分别是ReasoningMin-ReasoningReasoning-plus

Reasoning是基于Phi-4开发而成,mini版本适用于平板、手机等移动设备,而plus是强化学习版本,针对数学等特定领域进行了强化训练。

这三款模型的最大亮点之一便是算力消耗非常低,可以直接在消费级硬件环境上运行,以普通的 Windows 11设备为例,无论是CPU还是GPU,都能轻松实现本地部署。同时微软已经将Phi-4系列模型深度融入Windows系统生态,使其成为Copilot+PC的重要组成部分。

根据测试数据显示,Phi-4-Reasoning-plus版本只有140亿参数,但与DeepSeek开源的R1 6710亿参数相比性能几乎差不多,例如,在美国数学奥林匹克竞赛资格赛2025中,Reasoning-plus得分为78R170.4

哈佛麻省理工数学竞赛Reasoning-plus53.6R141.7Ominimath的测试中,Reasoning-plus81.9R185GPQAReasoning-plus69.3R173,成为目前最强的开源小参数模型。

开源地址:https://huggingface.co/microsoft/Phi-4-reasoning

https://huggingface.co/microsoft/Phi-4-mini-reasoning

https://huggingface.co/microsoft/Phi-4-reasoning-plus

Phi-4-Reasoning的基础架构源自微软开源的Phi-4 模型,为了提升其推理能力,微软通过监督微调和强化学习相结合的训练方法行了深度强化。

该方法的核心在于,先通过监督微调让大模型学习高质量的推理演示数据,从而生成详细的推理链,并能够有效地利用推理时的计算资源。优点类似于给模型提供了一个标准答案,让模型知道如何正确地进行推理。

但仅依靠监督微调是不够的,因为模型可能在某些领域仍然存在不足。微软又引入了强化学习阶段,尤其是对数学推理等特定领域帮助非常大。强化学习阶段通过奖励函数引导模型生成更准确、更深入的推理链,主要为模型提供了一个奖励机制,鼓励模型在推理过程中更加努力地思考,从而提高推理的准确性和深度。

Phi-4-Reasoning模型在推理标记与长推理链支持方面也进行了创新。为了更好地支持推理过程,模型引入了特定的推理标记<think>  </think>,用于标识推理链的开始和结束。

相当于给模型提供了一个思考的框架,使得模型能够更清晰地组织推理过程,并在生成推理链时更加注重推理的逻辑性和连贯性。

同时,模型的最大支持令牌长度从16K提升至32K,为长推理链的生成提供了足够的思考空间。使得模型能够处理更复杂的推理任务,而不会因为推理链过长而受限。

此外,微软发现使用高质量和合成数据对于训练模型非常重要,于是从多个渠道收集了大量问题,包括公开网站、现有数据集。这些数据涵盖了数学、科学、编程以及与安全相关的任务等多个领域。

还通过合成数据生成技术,将部分问题转换为新的形式。例如,将编程问题转换为文字问题,或者对数学问题进行改编,以更好地适应推理训练的需求。这种数据策划和合成策略不仅丰富了训练数据的内容,还为模型提供了更多样化的学习场景,从而提升了模型的泛化能力。

(文:AIGC开放社区)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往