豆包模型上新:Doubao-1.5-pro
Doubao-1.5-pro 模型针对MoE模型的四个计算象限提出异构硬件结合低精度优化策略,提升吞吐量和降低总成本。通过定制化的RPC后端、灵活配比的Prefill和Decode集群以及GPU与CPU的异步化处理,实现高效稳定的推理系统。
Doubao-1.5-pro 模型针对MoE模型的四个计算象限提出异构硬件结合低精度优化策略,提升吞吐量和降低总成本。通过定制化的RPC后端、灵活配比的Prefill和Decode集群以及GPU与CPU的异步化处理,实现高效稳定的推理系统。
本文提出了关于如何演进MoE模型的猜想,主要是在MoE Routing的基础上再套一层构建The Mixure of Expert Group(MoEG)。文章从代数和范畴论的角度分析了MoE模型的结构,并探讨了通过两层Routing Gate来优化模型并行计算和通信效率的方法。
国产大模型阶跃星辰Step-2在指令跟随类别中以86.57的高评分排名第一。团队创新研发了从头开始训练的万亿参数MoE架构,提升了综合能力近50%,覆盖语言、多模态等全面能力。