Intel论文归档

从DeepSeek MoE专家负载均衡谈起

下午2时 2025/03/12 作者 GiantPandaCV

上周同事分享了关于线上DeepSeek-R1推理的Expert激活数据的研究，发现专家负载不均衡现象。通过分析论文和内部请求数据，提出了一些关于MoE模型在不同场景下的应用观点，并讨论了细粒度MoE的重要性以及模型深度对Overlap的影响。