面壁MiniCPM4端侧模型发布:长文本推理 5 倍提速,0.5B 模型拿下新SOTA

2025 智源大会,新一代「面壁小钢炮」 MiniCPM4.0 端侧模型发布。一款 8B 稀疏闪电版,带来端侧性能创新式大跃升;一款 0.5B 实力演绎以小博大,适配广泛终端场景。
MiniCPM4.0 -8B 是首个原生稀疏模型,5%的极高稀疏度加持系统级创新技术的大爆发,让长文本、深思考在端侧真正跑起来,宣告了端侧长文本时代到来。
MiniCPM4.0 -8B 在MMLU、CEval、MATH500、HumanEval等基准测试中,以仅 22% 的训练开销,性能比肩 Qwen-3-8B,超越Gemma-3-12B。
MiniCPM4.0 -0.5B 在性能上,也展现出惊人的以小博大—— 在MMLU、CEval、BBH、HumanEval等基准测试中,MiniCPM4.0 -0.5B性能秒杀同级的Qwen-3-0.6B、Llama 3.2、Gemma3,并通过原生QAT技术实现几乎不掉点的int4量化,实现了 600 Token/s 的极速推理速度。
模型相关链接
  • Github 链接:https://github.com/openbmb/minicpm
  • 技术报告链接:https://github.com/OpenBMB/MiniCPM/blob/main/report/MiniCPM_4_Technical_Report.pdf

    https://arxiv.org/pdf/2506.07900

  • Huggingface链接:https://huggingface.co/collections/openbmb/minicpm-4-6841ab29d180257e940baa9b

  • Model Scope链接:https://www.modelscope.cn/collections/MiniCPM-4-ec015560e8c84d

「前进四」速度狂飙,快至220 倍!

代号「前进四」,小钢炮 MiniCPM4.0 树立起新一代端侧基础模型标杆,带来超预期的速度、性能、存储与端侧部署表现。
前进四,代表极致的速度提升:面对此前端侧模型长文本「龟速推理」业界难题,MiniCPM 4-8B 「闪电稀疏版」,采用了新一代上下文稀疏高效架构,相较于 Qwen-3-8B、Llama-3-8B、GLM-4-9B等同等参数规模端侧模型,实现了长文本推理速度 5 倍常规加速以及最高  220 倍加速(显存受限极限场景下测出),真正让端侧模型长文本推理实现了「快如闪电」的质变。此外,注意力机制上实现了高效双频换挡,长文本用稀疏,短文本用稠密,切换快如流。
前进四,代表性能的大迸发:MiniCPM 4.0 推出端侧性能“大小王”组合,拥有 8B 、0.5B 两种参数规模,延续「以小博大」特性,实现了同级最佳的模型性能。其中,MiniCPM 4.0-8B 模型为稀疏注意力模型,在MMLU、CEval、MATH500、HumanEval等基准测试中,以仅 22% 的训练开销,性能比肩 Qwen-3-8B,超越Gemma-3-12B。MiniCPM 4.0-0.5B 在性能上,也展现出惊人的以小博大—— 相较更大的Qwen-3-0.6B、Llama 3.2, 仅2.7%的训练开销,一半参数性能翻倍,并实现了最快  600 Token/s 的极速推理速度。
前进四,代表端侧部署的极致优化:MiniCPM 4.0 持续卫冕全球最强端侧模型,并进一步实现了长文本缓存的大幅锐减,在 128K 长文本场景下,MiniCPM 4.0-8B 相较于 Qwen3-8B 仅需 1/4 的缓存存储空间。量化版身轻如燕,高达90%的模型瘦身,性能依然十分稳健。在速度、性能飙升的同时,又做到了模型极致压缩,让端侧算力不再有压力,成为业界最为友好的端侧模型。
在应用上,端侧长文本的突破带来更多可能。基于 8B 版本,团队微调出两个特定能力模型,分别可以用做 MCP Client 和纯端侧性能比肩 Deep Research 的研究报告神器 MiniCPM4-Surve。
与此同时,面壁智能也携手诸多行业伙伴,持续推动 MiniCPM 4.0 模型适配及应用拓展。截止目前,MiniCPM 4.0 已实现 Intel、高通、MTK、华为昇腾等主流芯片的适配。此外, MiniCPM 4.0可在 vLLM、SGLang、llama.cpp、LlamaFactory、XTuner等开源框架部署。同时加强了对 MCP的支持,且性能超过同尺寸开源模型( Qwen-3-8B),进一步拓展了模型开发、应用潜力。

超 3000 人的「AI 产品及应用交流」社群,不错过 AI 产品风云!诚邀所有 AI 产品及应用从业者、产品经理、开发者和创业者,扫码加群:

进群后,您将有机会得到:


· 最新、最值得关注的 AI 产品资讯及大咖洞见

· 独家视频及文章解读 AGI 时代的产品方法论及实战经验

· 不定期赠送热门 AI 产品邀请码


新一代稀疏注意力架构 InfLLM

首个原生稀疏模型的发布,让长文本在端侧奔跑真正成为可能。由于传统稠密模型的上下文窗口受限,长文本又提出比较高的内存和算力需求,过去在端侧场景几乎不可用。对这一问题的解决,至关重要,又比较艰难,需要贯穿架构层、算法层、系统层、数据层的系统级层层优化
长文本是模型发展的重要技术发力点,可以保证生成文本的连贯性和一致性。在端侧需求更甚,因为用户终端上有大量的用户个人信息上下文,只有处理好这些上下文,才能真正做出最懂用户的个人助理产品。而这些个人信息上下文,隐私性非常高,譬如聊天记录、位置信息等,只有完全端侧实现才能保证个人信息安全。终端设备对世界的感知,也同样需要在端侧发生,典型的案例是辅助(自动)驾驶,光学摄像头和其它传感器的感知信号必须要在本地处理和理解,避免延迟和丢包。而感知所需要的多模态模型能力,对长上下文的要求是极其夸张的,模型想要记住一路摄像头 10 分钟之类的连续视觉信号,供实时推理使用,就已经需要超过 100K 的上下文长度了,还不考虑多路及声音和其它传感器所代表的模态信号。
这次行业首例全开源的系统级上下文稀疏化高效创新,具体来说是基于新一代稀疏注意力架构 InfLLM 做了模型创新,并通过自研端侧推理三级火箭,自研 CPM.cu 极速端侧推理框架,从 投机采样创新、模型压缩量化创新、端侧部署框架创新 几方面,带来 90% 的模型瘦身和极致速度提升,最终实现端侧推理从天生到终生的高效丝滑。同时,在综合性能的极限推进上,点滴领先背后都是「十年之功」的积累,新一代模型的发布也是研究团队技术创新的集大成呈现。
1、【架构高效】新一代稀疏注意力架构 InfLLM ,速度准度双效提升
引入稀疏注意力架构为什么在当下如此重要?一是长文本处理、深度思考能力成为人们对大模型愈来愈迫切的需求,而传统稠密模型上下文窗口受限;二是稀疏度越高,计算量越小,速度越快越高效。DeepSeek等明星项目以稀疏模型架构撬动的“高效低成本”收益愈益得到认可。端侧场景天然因算力限制,对效率提升与能耗降低要求则更加迫切。
传统 Transformer 模型的相关性计算方式是每个词元都需要和序列中所有 词元进行相关性计算,造成了较高的计算代价。MiniCPM 4.0 模型采用的 InfLLMv2 稀疏注意力架构改变了传统 Transformer 模型的相关性计算方式,到分块分区域高效「抽查」——即对文本进行分块分区域处理后,通过智能化选择机制,只需对最有相关性的重点区域进行注意力计算“抽查”,摆脱了逐字重复计算的低效。InfLLMv2 通过将稀疏度从行业普遍的40%-50%,降至极致的 5%,注意力层仅需1/10的计算量即可完成长文本计算。且对算子底层重写,进一步加速提升,并使得对文本相关性精准性大大提升。
主要创新点如下:
  • 更精准的上下文块选择算法:在InfLLM中,每个上下文块由少量代表元构成单一的语义表示。InfLLM v2引入了细粒度语义核的概念,每个上下文块由多个细粒度语义核构成。查询词元与上下文块的相关性分数为查询词元与该上下文块中包含的所有语义核相关性分数最大值。该方法使得模型能够更精准地选择上下文块。
  • 更细粒度的查询词元分组:InfLLM在预填充阶段将多个查询词元分成一组,使该组内所有查询词元选择相同的上下文块进行注意力计算。该方法会造成模型训练与推理的不统一。InfLLM v2中采用了更细粒度的查询词元分组 —— 要求Grouped Query Attention中每组查询头共享相同的上下文块。该划分在保证了底层算子高效实现的同时,提升了模型上下文选择的准确性。
  • 更高效的算子实现:为了InfLLM v2能够在训练与推理过程中充分发挥其理论加速优势,MiniCPM4开发并开源了InfLLM v2的高效训练与推理算子。同时,为了能够快速地选取TopK上下文块,MiniCPM4中提出了一种高效的LogSumExp估计算法。相比于DeepSeek NSA算法,MiniCPM4中采用的TopK上下文选择方法,能够节省60%的计算开销。
值得一提的是,DeepSeek 使用的长文本处理架构 NSA(Native Sparse Attention)也引用并采用了与InfLLM相同的分块注意力计算思路,但其对于短文本的推理较慢,InfLLMv2 则很好的解决了NSA在短文本推理上的短板。
针对单一架构难以兼顾长、短文本不同场景的技术难题,MiniCPM 4.0-8B 采用「高效双频换挡」机制,能够根据任务特征自动切换注意力模式:在处理高难度的长文本、深度思考任务时,启用稀疏注意力以降低计算复杂度,在短文本场景下切换至稠密注意力以确保精度与速度,实现了长、短文本切换的高效响应。
2、【推理高效】推理高效三级火箭,自研全套端侧高性能推理框架
在推理层面,MiniCPM 4.0 通过 CPM.cu 自研推理框架、P-GPTQ前缀敏感的模型训练后量化、BitCPM 极致低位宽量化、ArkInfer自研跨平台部署框架等技术创新,实现了极致的端侧推理加速。
CPM.cu:轻量化高效CUDA推理框架
CPM.cu 端侧自研推理框架是一个专为端侧NVIDIA芯片优化的轻量化推理框架。除了静态内存管理和算子融合等基础功能外,还实现了高效的投机采样、前缀敏感的量化算法,并为InfLLM v2集成了高效的稀疏注意力算子,可以说是做到了稀疏、投机、量化的高效组合,最终实现了 5 倍速度提升。其中,FR-Spec 轻量投机采样类似于小模型给大模型当“实习生”,并给小模型进行词表减负、计算加速。通过创新的词表裁剪策略,让小模型专注于高频基础词汇的草稿生成,避免在低频高难度词汇上浪费算力,再由大模型进行验证和纠正。
BitCPM 量化与P-GPTQ量化
部署大模型面临高计算和内存需求的挑战。模型量化通过降低参数精度来解决这一问题,实现高效推理并减少资源消耗。此次,面壁智能采用了P-GPTQ(前缀敏感的模型训练后量化)、以及BitCPM三值量化两种量化方法,来降低大模型部署中的计算与内存消耗。
P-GPTQ的核心思想是在量化过程的Hessian矩阵计算时排除初始词元的干扰。实证分析发现,大模型初始位置的激活幅度比后续词元大10倍,将严重影响协方差运算。MiniCPM4采用位置感知的校准策略,仅使用从第4个位置开始的稳定词元进行量化参数计算,有效消除了初始词元带来的统计偏差,且该方法与现有量化技术(如Quarot旋转方法和AWQ平滑方法)完全兼容,可无缝集成到现有量化流水线中。实验结果表明,在INT4量化设置下,P-GPTQ相比其他量化方法取得了最优性能,显著减少了相对于FP16基线的性能退化。
此外,面壁训练了两个规模的三值模型:BitCPM4-0.5B和1B参数模型,整个训练过程使用了350B 词元。实验结果显示,在0.5B参数级别,BitCPM4-0.5B在知识相关任务上表现优异。
ArkInfer跨平台部署框架
除了有限的计算资源挑战外,端侧芯片的碎片化是另一个重大障碍。芯片碎片化要求每次发布新模型时,都需要将模型适配到多个平台和芯片类型,导致复杂的适配和部署过程,这带来了巨大的工程工作量。
为了解决这些痛点,面壁提出了 ArkInfer,一个新颖的跨平台部署系统。通过引入了跨平台兼容的架构设计、可复用且高效的推测采样与约束解码方案以及可扩展的模型库前端等解决方案,提供高效的推理速度并作为各种模型应用的多功能跨平台兼容层,来克服端侧芯片的碎片化问题。
3、【训练+数据高效】打造大模型光刻机,优化科学化建模产线
为什么面壁总能带来同等参数、性能更强,同等性能、参数更小的先进模型?大模型制程看得见的领先背后,是无数看不见的技术积累与严苛标准;是点点滴滴细节的精益求精。
区别于业界普遍采用的“大力出奇迹”路线,面壁智能坚持以「高效」为核心的技术路径。对大模型科学化的探索,贯穿从数据、训练、学习、推理等层层流程,实现了研发投入产出比的最大化。
好数据才有好模型,高效构建高质量数据,是高质量模型的基本盘。面壁在这一领域拥有诸多创新方法,并且悉数开源。譬如,Ultra-FineWeb 高知识密度数据筛选机制,用“半成品加工法”来构造万亿数据,通过先训一个“半熟”模型, 再用新数据快速微调,如同预制菜快出成果,最终实现 90% 的验证成本降低。在大规模数据质检方面,利用轻量化的 FastText 工具,处理 15 万亿 token 数据仅需 1000 小时 CPU 时间。同时,UltraChat-v2 合成了包含数百亿词元的高质量对齐数据,在知识类、指令遵循、长文本、工具使用等关键能力上进行定向强化。在高质量数据与高效训练策略的加持下,相比同尺寸开源模型,MiniCPM 4.0-8B 仅用 22% 的训练开销,即可达到相同能力水平。
在训练策略上,MiniCPM 4.0 应用了迭代升级后的风洞 2.0 方案(Model Wind Tunnel v2),通过在 0.01B-0.5B 小模型上进行高效实验,搜索最优的超参数配置并迁移到大模型,相比此前的 1.0 版本,风洞 2.0 将配置搜索的实验次数降低 50%。针对强化学习训练中的负载不均问题,Chunk-wise Rollout 技术通过分段采样策略,确保 GPU 资源的高效利用。工程层面还采用了 FP8 训练和 MTP 监督信号等前沿技术,进一步提升训练效率。
此次 MiniCPM 4.0 的发布,是面壁智能持续探索高效大模型道路上的又一重要里程碑,通过多维度、高密度的优化,真正做到行业唯一的端侧可落地的系统级软硬件稀疏化高效创新。这也是面壁获得来自社区广泛认同的本因。截至目前,面壁小钢炮 MiniCPM 系列全平台下载量累计破 1000 万。未来,面壁智能还将基于「大模型密度定律 Densing Law」,持续提高大模型的知识密度与智能水平,推动端侧智能高效发展与规模化产业应用。

(文:AI科技大本营)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往