豆包推出全新稀疏模型架构 UltraMem了

春节假期后的第二个工作周,字节还是憋不住要秀一下肌肉了。人工智能领域,大模型的推理成本与效率始终是制约其规模化应用的核心问题。MoE(Mixture of Experts)架构虽通过参数稀疏化提升了训练效率,但其推理阶段的访存瓶颈导致成本居高不下。


就在刚刚,字节跳动豆包团队提出的UltraMem架构,以最高83%的推理成本降幅和6倍的推理速度提升,个人觉得它不仅突破了现有技术局限,更重新定义了稀疏模型的性能边界。这一创新不仅入选ICLR 2025,更一定程度上重塑大模型产业的竞争格局。


架构困境与UltraMem破局逻辑


MoE在训练时通过稀疏激活专家(expert)降低计算量,但推理时小批量数据(batch size)导致所有专家被激活。


文本生成场景中,每个token需遍历全部专家参数,引发显存带宽压力,延迟显著增加。实验显示,MoE推理延迟中60%以上来自显存访问。


PKM(Product Key Memory)通过大规模稀疏参数存储(value)减少访存,但其单层结构导致参数利用率低,且检索机制仅依赖简单的行列得分加权,模型效果显著弱于MoE。


UltraMem通过三大创新实现“效率-效果-扩展性”的三角平衡:


分层动态内存结构,将单层PKM拆分为多层级联的小型Memory Layer,以固定间隔嵌入Transformer层中,并通过skip-layer连接实现参数跨层复用。例如,在12层Transformer中每3层插入Memory Layer,使稀疏参数参与80%以上的残差计算,显著提升参数利用率。


Tucker分解检索(TDQKR),引入高阶张量分解技术,将检索得分分解为行、列得分与核心矩阵的联合优化。


公式表达为:



其中,C为可学习的核心矩阵,两个S为行列得分。相比PKM的线性加权,TDQKR通过非线性组合捕捉高阶特征关联,检索精度提升15%。

隐式参数扩展(IVE),通过虚拟内存(virtual memory)与物理内存(physical memory)的映射机制,实现4倍参数扩展而不增加显存占用。

具体而言,每个物理内存块被多个虚拟块共享,并通过线性变换生成差异化输出。例如,4个虚拟块映射到同一物理块,经不同权重矩阵变换后融合,等效参数量提升4倍。


性能对比与实验验证


在151M、680M、1.6B参数规模下,UltraMem的推理速度较MoE提升2-6倍,成本降低最高83%。


关键数据如下:


访存优化,MoE推理时显存访问量随专家数线性增长,而UltraMem通过动态激活机制,仅需访问0.5%的稀疏参数。


延迟对比,在batch size=1的生成任务中,UltraMem延迟为12ms,而同等规模MoE高达72ms。


C4数据集中,UltraMem的验证损失(validation loss)较PKM降低0.092,较MoE亦有显著优势。


当稀疏参数与稠密参数比例从10:1提升至100:1时,UltraMem的损失下降呈现对数规律,而MoE因显存瓶颈无法扩展。


逐项引入分层结构、TDQKR和IVE后,模型效果累计提升23%,而计算量仅增加2%,证明技术创新的协同效应。

技术突破行业意义


成本敏感型应用落地中,以客服机器人场景为例。UltraMem能够将单次交互成本从0.003美元降至0.0005美元,使中小企业部署百亿级模型成为可能。


实时性需求场景中,自动驾驶的实时决策过程,UltraMem的毫秒级响应(如50ms内完成复杂环境推理)显著优于MoE的300ms延迟。


UltraMem的低访存特性降低了对HBM(高带宽内存)的依赖,推动GPU与ASIC芯片设计向算力密度优化倾斜。


若UltraMem开源,我认为一定程度上会催生类似Hugging Face的模型库,加速长尾场景的模型微调。


(一)UltraMem证明稀疏模型的损失下降遵循对数规律而非传统幂律,为超大规模模型(万亿参数)的训练提供新方向。


(二)通过算法层显存优化,倒逼硬件设计(如存算一体芯片)的创新迭代。


(三)当前实验集中于通用语料,在医疗、法律等专业领域的效果待验证。


⋯ ⋯


新生事物,总是需要更多的实践来验证的。TDQKR的复杂检索机制也会引入训练不稳定性,需进一步研究正则化方法。


不够完美,才能更加全面认识到不足的地方。现有推理框架(如TensorRT)对动态稀疏计算的支持尚不完善,一定程度上限制部署效率。


UltraMem诞生标志着大模型架构从“暴力扩展”向“智能稀疏”的范式转移,其通过算法-硬件协同优化,在推理效率与模型效果间找到了黄金平衡点。ICLR 2025的亮相之后,这一技术也会让全球AI实验室跟进研究,进而推动行业“低成本、高智能”进程。

(文:陳寳)

欢迎分享

发表评论