
©PaperWeekly 原创 · 作者 | 苏剑林
单位 | 科学空间
研究方向 | NLP、神经网络
前两年福至心灵之下,开了一个“Transformer 升级之路”系列,陆续分享了主流 Transformer 架构的一些改进工作和个人思考,得到了部份读者的认可。这篇文章开始,我们沿着同样的风格,介绍当前另一个主流架构 MoE(Mixture of Experts)。
MoE 的流行自不必多说,近来火出圈的 DeepSeek-V3 [1] 便是 MoE 架构,传言 GPT-4 也是 MoE 架构,国内最近出的一些模型也有不少用上了 MoE。
然而,虽然 MoE 的研究由来已久,但其应用长时间内都不愠不火,大致上是从去年初的《Mixtral of Experts》[2] 开始,MoE 才逐渐吸引大家的注意力,其显著优点是参数量大,但训练和推理成本都显著低。
但同时 MoE 也有一些难题,如训练不稳定、负载不均衡、效果不够好等,这也是它早年没有流行起来的主要原因。不过随着这两年关注度的提升,这些问题在很大程度上已经得到解决,我们在接下来的介绍中会逐一谈到这些内容。

问题定义
首先要指出的是,这里会用笔者自己的一种理解思路来介绍 MoE,在必要的地方会附上相应的
(文:PaperWeekly)