一个关于MoE的猜想

本文提出了关于如何演进MoE模型的猜想,主要是在MoE Routing的基础上再套一层构建The Mixure of Expert Group(MoEG)。文章从代数和范畴论的角度分析了MoE模型的结构,并探讨了通过两层Routing Gate来优化模型并行计算和通信效率的方法。