从DeepSeek MoE专家负载均衡谈起
上周同事分享了关于线上DeepSeek-R1推理的Expert激活数据的研究,发现专家负载不均衡现象。通过分析论文和内部请求数据,提出了一些关于MoE模型在不同场景下的应用观点,并讨论了细粒度MoE的重要性以及模型深度对Overlap的影响。
上周同事分享了关于线上DeepSeek-R1推理的Expert激活数据的研究,发现专家负载不均衡现象。通过分析论文和内部请求数据,提出了一些关于MoE模型在不同场景下的应用观点,并讨论了细粒度MoE的重要性以及模型深度对Overlap的影响。