
近年来,大语言模型(LLMs)在自然语言处理、代码生成、多模态理解等领域发展迅速,已成为通用人工智能系统的重要基石。
然而,模型能力的提升伴随着计算资源与存储需求的急剧增长,如何实现高性能与高效率并存,已成为 AI 面临的重要挑战。
作为 AI 领域的先行者,华为诺亚方舟实验室正在用前沿研究给出答案。
今年 4 月,该团队成功开发出基于昇腾算力训练的千亿级通用语言大模型 Pangu Ultra。在多个领域和评测上超越之前 Llama 405B 和 Mistral Large 2 等密集模型,并可以与 DeepSeek-R1 等更大规模的稀疏模型一较高下。
5 月初,他们又推出了稀疏大语言模型 Pangu Ultra MoE,并且实现了在 6000 + 块昇腾 NPU 上对 MoE 模型的长期稳定训练。
想了解更多关于该团队在大模型方面的技术积累与研究成果?
5 月 28 日至 30 日,每晚 19:00 至 21:00,机器之心联合华为诺亚方舟实验室举办系列分享会,带来包括量化、剪枝、MoE 架构优化、KV 优化等多个关键技术方向的最新突破。
三晚连播,干货密集,值得每一位关注大模型的开发者、研究者、从业者学习。

5月28日分享内容
19:00-19:40
CBQ: 一种基于跨块重建的 LLM 后训练量化框架
嘉宾简介:涂志俊,华为诺亚方舟实验室研究员,本科和硕士研究生均毕业于西安交通大学。他的主要研究方向是轻量高效的大语言模型和 AIGC 模型。他在 CVPR,ECCV,NeurIPS,ICLR 等顶级学术会议发表多篇论文,曾获得 NTIRE@CVPR2023 denoising 赛道冠军。
分享摘要:随着大语言模型(LLMs)在自然语言处理任务中的广泛应用,其高昂的计算和存储成本成为部署的重要挑战。后训练量化(PTQ)作为一种低成本的模型压缩技术,近年来取得了显著进展,但在超低比特量化(如 W4A4、W4A8)时,现有方法仍面临性能显著下降的问题。本文深入分析了 LLMs 量化误差的来源,发现随着模型参数增加和量化比特位宽减少,层间和层内的依赖关系对量化精度的影响愈发显著。为此,我们提出了 CBQ(Cross-Block Quantization),一种基于跨块重建的 PTQ 方法。CBQ 通过跨块依赖(CBD)机制建立多个 Transformer 块之间的长距离依赖关系,并结合自适应 LoRA-Rounding 技术管理层内依赖,同时引入从粗到细的预处理策略(CFP)处理权重和激活中的异常值。实验表明,CBQ 在多种 LLMs 和数据集上实现了超低比特量化的性能突破,显著优于现有方法,且仅需 4.3 小时即可完成 4-bit LLAMA-65B 模型的权重量化,展现了优异的效率与性能平衡。
相关链接:
Paper: https://openreview.net/pdf?id=eW4yh6HKz4
19:40-20:20
SlimLLM:面向大语言模型的精确结构化剪枝方法
嘉宾简介:郭佳龙,华为诺亚方舟实验室研究员,研究生毕业于中国科学院大学。主要从事模型压缩领域相关工作,研究成果发表于国际机器学习顶会 ICML,以第一作者 / 共同作者身份发表论文 2 篇。
分享摘要:大语言模型(LLMs)因其卓越的能力在众多应用中受到广泛关注,但其庞大的计算成本严重限制了实际部署与应用。为解决这一问题,结构化剪枝是一种有效压缩 LLMs 参数并减少计算量的方法,其关键在于准确评估各子模块的重要性并最小化性能损失。本文提出了一种高效快速的大语言模型结构化剪枝方法 SlimLLM。针对通道和注意力头的剪枝,我们基于整体通道或 head(而非简单聚合子模块内单个元素的重要性)评估重要性,从而更全面地考虑子模块内元素间的相互依赖关系。此外,我们为输出矩阵设计了一种简单的线性回归策略以快速恢复性能,并提出基于层的重要性比例来确定每层的剪枝率。在 LLaMA 基准测试中,SlimLLM 证明能有效保留剪枝模型精度,达到了最先进的性能水平。
20:20-21:00
KnowTrace: 一个基于结构化知识追踪的迭代式 RAG 框架
嘉宾简介:戴全宇,华为诺亚方舟实验室研究员。他本科毕业于上海交通大学,博士毕业于香港理工大学。他的主要研究兴趣是大语言模型智能体、个性化大语言模型和推荐系统。他在 KDD、WWW、NeurIPS、TKDE、TNNLS 等顶级学术会议和期刊上发表了 50 多篇论文,并常年担任这些会议和期刊的审稿人。
分享摘要:近年来,检索增强生成(RAG)领域的最新进展为 LLM 提供了迭代检索相关信息的能力,以处理复杂的多跳问题。这些方法通常在 LLM 推理和检索之间交替进行,将外部信息逐步累积到 LLM 的上下文中。然而,迭代过程中不断增长的上下文使 LLM 难以捕捉关键信息片段之间的关联,而无效的推理步骤进一步加剧了这种过载问题。在本工作中,我们提出了 KnowTrace—— 一种简洁高效的 RAG 框架,旨在:(1)缓解上下文过载问题;(2)促进更高质量的多步推理。与简单堆叠检索内容不同,KnowTrace 能够自主追踪所需的知识三元组,构建与输入问题相关的特定知识图谱。这种结构化工作流程不仅为 LLM 提供了易于理解的推理上下文,还自然激发了一种知识回溯的反思机制,可识别出有贡献的 LLM 生成结果,将其作为过程监督数据用于自我引导提升。充分的实验表明,KnowTrace 在三个多跳问答基准测试中均持续超越现有方法,且通过自我引导提升的版本进一步放大了其优势。
相关链接:
Code: https://github.com/rui9812/KnowTrace
5月29日分享内容
19:00-19:40
盘古 Embedded: 灵活切换快慢思考的高效大语言模型
嘉宾简介:韩凯,华为新加坡诺亚方舟实验室高级研究员,主要研究方向为深度学习和 AI 基础模型,特别是资源高效深度学习,相关成果已在华为终端、ICT 和云等业务落地。已在 AI 领域顶会顶刊发表论文 50 余篇,谷歌学术累计被引 1.7 万余次,其中 GhostNet 和 TNT 入围 PaperDigest 最具影响力论文榜单。他长期担任 NeurIPS、ICML、ICCV、ICLR 及 AAAI 等顶会领域主席,入选斯坦福全球 Top2% 学者榜单。
分享摘要:本研究提出了盘古 Embedded(一款兼具高效性与推理能力的灵活思维语言模型),该模型基于昇腾神经网络处理器(NPUs)训练,具备快速与深度交替的思维能力。针对现有推理大语言模型存在的计算成本过高(参数量大)和延迟问题(思维链冗长),我们构建了多维优化框架,整合三大核心技术:(1)迭代式蒸馏微调策略平衡基础推理能力提升与任务特定适配;(2)通过延迟容忍调度框架实现昇腾平台上的可扩展强化学习,该框架创新性地结合延时同步并行(SSP)与分布式优先数据队列;(3)双系统快慢思维框架实现效率与深度的自适应协调,提供手动 / 自动模式切换功能以灵活应对不同任务需求。实验表明,盘古 Embedded 在显著降低推理延迟的同时保持卓越推理精度,特别适用于移动设备等资源受限场景。本研究开创了在保持实际部署能力前提下,通过统一方法提升端侧大语言模型推理能力的路径。
19:40-20:20
盘古 – Light:基于权重重初始化的大语言模型极致剪枝框架
嘉宾简介:陈汉亭,华为诺亚方舟实验室高级研究员,北京大学智能科学专业博士,主要研究方向为大语言模型架构、压缩加速、reasoning 等,在国际顶级会议、期刊发表论文 50+篇,论文被引用 8000+次,担任 NeurIPS 等国际顶级学术会议领域主席,曾获 CVPR24 最佳学生论文 runner up,曾入选斯坦福全球 Top2% 学者榜单。
分享摘要:本研究提出了盘古 – Light,基于昇腾 NPU 设计的的大语言模型高效剪枝框架。其核心在于通过创新的权重重初始化技术,稳定并优化因极致结构化剪枝带来的性能挑战。针对现有大语言模型(LLMs)在实际部署中面临的巨大体积和高昂推理成本,以及传统剪枝方法在进行激进、多维度(如宽度与深度同时)结构压缩时常导致模型性能严重退化(特别是权重在剧烈结构变动后失稳)的痛点,我们构建了一个综合性的剪枝与优化框架,整合了以下关键技术:(1)多维度结构化剪枝:系统性地对模型宽度、深度、注意力头及 RMSNorm 层进行重要性驱动的结构移除。(2)核心权重重置与结构调整策略:引入剪枝后权重重初始化化。通过创新的跨层注意力剪枝(CLAP)技术进行深度剪枝后的参数重整合与重新初始化,以及稳定化 LayerNorm 剪枝(SLNP)技术对 RMSNorm 层剪枝后的仿射参数进行重置,从而在结构剧变后有效稳定网络。(3)针对性架构优化:为盘古模型特有的三明治归一化(Sandwich-Norm)结构设计的 Post-RMSNorm 层参数吸收技术。实验结果表明,应用于盘古大模型的盘古 – Light 框架能实现显著的模型压缩和推理加速,超越了主流基线剪枝方法(如英伟达提出的 Minitron,PUZZLE 等),剪枝后模型展现出较 Qwen3-32B 等模型更优的综合性能和精度。
20:20-21:00
ESA: 一种基于低维压缩的高效选择性注意力方法
嘉宾简介:滕茼,华为诺亚方舟实验室研究员。她本科毕业于山东大学,博士毕业于新加坡国立大学。她的主要研究兴趣是大语言模型的长度外推和稀疏注意力。
分享摘要:在 LLM 推理过程中,随着序列长度增大,注意力计算成为主要的性能瓶颈。如何利用注意力矩阵的稀疏性,减少计算开销、加速推理,成为一个重要课题。本次分享将介绍我们提出的 ESA (Efficient Selective Attention) 方法,该方法无需微调模型参数即可实现稀疏注意力与序列长度外推。我们首先探索了细粒度的 token 选择策略,能够灵活且精准地定位序列中的关键信息。为了降低 token 选择的计算复杂度,ESA 引入了 query 和 key 的低维压缩机制,兼顾选择灵活性与计算效率。同时引入邻域影响力机制,有效缓解了仅依赖 top-ranked token 所导致的信息遗漏问题。通过创新的稀疏注意力设计,ESA 突破了大模型在长文本处理中的瓶颈。此外,为更好地适配硬件并提升推理效率,我们进一步探索了基于 block 的 token 压缩及选择策略,以实现对昇腾等平台的高效支持。
论文地址:https://arxiv.org/abs/2502.14477
5月30日分享内容
19:00-19:40
昇腾原生的盘古 MoE 大模型
嘉宾简介:唐业辉,华为诺亚方舟实验室高级研究员,聚焦于基础大模型的研究,主导了盘古 MoE 大模型、1.5B 端侧模型等多个基础模型的训练,相关成果已在华为终端、华为云等业务场景商用。他博士毕业于北京大学,在 NeurIPS、ICML 等顶会发表论文 50 余篇,Google scholar 引用 8000+,并担任 NuerIPS 等国际顶级会议领域主席。
分享摘要:MoE 模型可以兼容模型效果和推理效率,已经逐渐成为业界模型的主流。本研究提出 Pangu Pro MoE,一款昇腾原生的 MoE 大模型(总参数 72B,激活参数 16B)。为解决传统 MoE 模型的负载不均衡问题,本研究提出 MOGE 创新架构,通过混合专家分组的路由策略,最大程度保证了不同设备间专家数的均衡,并在昇腾平台上建模仿真,选取昇腾亲和的最优规格。此外,通过混合并行优化、通算融合、量化压缩、算子优化等系统方法,软硬协同优化,大幅提升了模型在昇腾 910、昇腾 310 等硬件平台的推理效率。基于大量高质量数据,模型在 4000 + 昇腾 NPU 集群长稳训练,拥有强大的慢思考能力,在通用知识、数学推理等多个方面均取得了优于现有同规模模型的效果。
19:40-20:20
PreMoe:大 Batchsize 下 MoE 模型专家路由优化
嘉宾简介:张影,华为诺亚方舟实验室研究员,硕士毕业于北京交通大学,北京市优秀毕业生,主要研究方向为推理加速和高效部署。
分享摘要:混合专家模型(MoE)架构使语言模型能够扩展参数规模提高模型效果,同时避免计算成本成比例增长。然而,大型 MoE 模型对内存的极高需求,阻碍了其在从云服务器到消费级设备等各类计算环境中的部署。本研究首次揭示了 MoE 层内专家激活模式中显著的任务特异性专业化现象。基于此,本研究推出 PreMoe:一种支持大 batchsize 下通过实现 MoE 模型的专家路由优化,从而实现专家的动态加载。该方案包括两个核心组件:(1)概率专家剪枝(PEP):引入任务条件期望选择分数(TCESS)这一全新指标(基于路由逻辑值推导),量化专家对特定任务的重要性,从而筛选出关键专家的最小集合。(2)任务自适应专家检索(TAER):利用任务特异性专家重要性分布实现高效推理,预先计算并存储多样化任务的紧凑专家模式。当接收到用户查询时,TAER 可快速匹配最相关的预存任务模式,仅加载与该任务高度相关的少量专家子集以重构模型,大幅降低全场景内存占用。在盘古多个 MoE(72B、718B)模型上实验表明,PreMoe 在不同任务上都实现了专家的动态加载,并且在数学、代码等高阶能力任务上,提升推理效率 10%+,模型能力损失 < 2%。本研究开创了在保持实际部署能力前提下,通过动态加载专家降低对内存的依赖,不降低推理能力的情况下提升昇腾 NPU 上 MoE 推理效率。
20:20-21:00
无需训练、近似无损!基于 LLM 机理分析的大模型 KV 优化与反思压缩
嘉宾简介:李钘,华为诺亚方舟实验室研究员,硕士毕业于德国亚琛工业大学,主要研究方向为推理加速和高效部署。
分享摘要:长输入输出的 KV 内存压缩与超长反思压缩成为 LLM 推理加速的研究热点。很多现有方法需要微调或额外增训小模型以实现高精度压缩,但依赖微调导致模型能力不可控损伤、训练小模型带来额外算力与时间成本、工业级部署面临精度与效率双重挑战。因此,我们充分利用大模型各层 attention 对 KV 精度敏感度差异的理论分析和长思维链 CoT 思考过程冗余与语义结构,提出了两个无需训练的 LLM 推理加速方案:1)硬件友好 KV 分层混合精度自动寻优算法 KVTuner;2)verifier based LRM 高效反思压缩算法 TrimR。
KVTuner 基于 attention 机理的理论分析指导推理加速,实现在数学等复杂数据集 3.25bit 近似无损 KV 量化。我们理论证明了 attention patterns 对 KV 精度敏感度差异,且实验发现该特性为模型自身特征与输入无关。两阶段搜索空间智能剪枝与聚类算法,将搜索空间从天文数字压缩至快速可解。离线快速寻优各层 Pareto 最优的 KV 精度对,零在线开销部署,实现高效内存占用和准确度的最佳平衡。
TrimR 的核心思想是引入轻量级验证器,动态识别冗余反思并引导 LRM 终止思考,在 Pangu-R-38B、Pangu Pro MoE、Pangu Ultra MoE、QwQ-32B 等模型和 MATH500 等数据集上实现了高达 70% 的推理效率提升。其设计灵感来自人类思考过程与数值优化理论。我们将 overthinking 和 underthinking 识别简化为两个分类任务:答案存在性与等价性检查,无需微调的 7B-instruct 小模型即可胜任。异步在线反思压缩系统 T3CS 基于昇腾 NPU 完成工业级大并发部署、完全兼容 vLLM 社区生态。
论文地址:
-
https://arxiv.org/abs/2502.04420
-
http://arxiv.org/abs/2505.17155
直播间
本次系列分享将在机器之心视频号与黄大年茶思屋科技网站直播,欢迎大家关注预约。

(文:机器之心)