MoE模型
华为:让DeepSeek的“专家们”动起来,推理延迟降10%!
华为团队发布的OmniPlacement方法有效解决了MoE模型的负载不均衡问题,优化后理论可降低10%推理延迟和提升约10%吞吐量,近期将全面开源。
拉 DeepSeek 和通义“组队”斗 OpenAI?小扎首届 AI 大会变“大型商战现场”,和微软 CEO 疯狂互曝!
LlamaCon。现场,该公司宣布推出一款面向消费者的独立 Meta AI 聊天机器人应用程序,这款
让DeepSeek模型变更强!SGLang团队将吞吐量提高5倍,API成本降到官方五分之一
SGLang团队在开源技术博客中介绍了如何优化DeepSeek模型,在96个H100 GPU上实现了显著性能提升。通过引入PD分解、TBO以及专家重新平衡等策略,提高了预填充和解码阶段的吞吐量,并减少了不平衡现象对性能的影响。
最强开源模型!阿里发布并开源Qwen3,无缝集成思考模式、多语言、便于Agent调用
阿里巴巴发布Qwen3系列模型,包括两个专家混合(MoE)模型和六个Dense模型,并开源了部分权重。该系列在多个基准测试中表现出与OpenAI等顶级模型相当的性能。Qwen3还具有高效的“思考模式”,支持119种语言且训练数据量是Qwen2.5的两倍,有助于Agent调用。部署成本显著降低,整体推理成本也有所节省。
阿里Qwen3深夜开源!8款模型、集成MCP,性能超DeepSeek-R1,2小时狂揽16.9k星
阿里云开源Qwen3系列模型,包含8种规格支持119种语言。旗舰模型在编程、数学等方面表现优于多家知名模型。Qwen3系列引入混合思考模式,支持MCP协议和119种语言,已上线多个平台。
从DeepSeek MoE专家负载均衡谈起
上周同事分享了关于线上DeepSeek-R1推理的Expert激活数据的研究,发现专家负载不均衡现象。通过分析论文和内部请求数据,提出了一些关于MoE模型在不同场景下的应用观点,并讨论了细粒度MoE的重要性以及模型深度对Overlap的影响。