MoE环游记：从几何意义出发

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 科学空间

研究方向 | NLP、神经网络

前两年福至心灵之下，开了一个“Transformer 升级之路”系列，陆续分享了主流 Transformer 架构的一些改进工作和个人思考，得到了部份读者的认可。这篇文章开始，我们沿着同样的风格，介绍当前另一个主流架构 MoE（Mixture of Experts）。

MoE 的流行自不必多说，近来火出圈的 DeepSeek-V3 [1] 便是 MoE 架构，传言 GPT-4 也是 MoE 架构，国内最近出的一些模型也有不少用上了 MoE。

然而，虽然 MoE 的研究由来已久，但其应用长时间内都不愠不火，大致上是从去年初的《Mixtral of Experts》[2] 开始，MoE 才逐渐吸引大家的注意力，其显著优点是参数量大，但训练和推理成本都显著低。

但同时 MoE 也有一些难题，如训练不稳定、负载不均衡、效果不够好等，这也是它早年没有流行起来的主要原因。不过随着这两年关注度的提升，这些问题在很大程度上已经得到解决，我们在接下来的介绍中会逐一谈到这些内容。

问题定义

首先要指出的是，这里会用笔者自己的一种理解思路来介绍 MoE，在必要的地方会附上相应的

（文：PaperWeekly）