MoE模型归档 - 每时AI

720亿参数！华为首个开源大模型发布，用4000颗昇腾训练的

2025年6月30日16时作者智东西

华为发布了盘古Pro MoE和盘古Embedded 7B两个新模型，并开源了基于昇腾的模型推理技术。盘古Pro MoE在多项基准测试中超越Qwen3-32B等模型；盘古Embedded 7B则具备灵活切换快慢思考的能力。

2025年6月27日23时作者智东西

腾讯混元开源首个混合推理MoE模型Hunyuan-A13B，参数80亿，激活参数13亿，在多个基准测试中超越OpenAI等模型，支持数学、推理和Agent调用能力。

2025年6月9日23时作者智东西

2025中国AI算力大会即将在北京举办，阿里云卢晓伟将作《超大规模MoE对AI基础设施带来的挑战和机遇》报告。会议涵盖AI推理算力、智算中心等专题论坛及研讨会。

2025年6月8日8时作者机器之心

研大模型。
该模型名为 dots.llm1，是小红书 hi lab（Humane Intellige

2025年6月5日8时作者新智元

训练算子和内存优化新方案：三大核心算子全面提速，系统吞吐再提20%，Selective R/S实现内

2025年5月21日16时作者新智元

FusionSpec创新的框架设计配合昇腾强大的计算能力，将投机
推理框架耗时
降至毫秒级，打破延迟

2025年5月20日16时作者量子位

华为团队发布的OmniPlacement方法有效解决了MoE模型的负载不均衡问题，优化后理论可降低10%推理延迟和提升约10%吞吐量，近期将全面开源。

2025年5月11日16时作者 AI前线

LlamaCon。现场，该公司宣布推出一款面向消费者的独立 Meta AI 聊天机器人应用程序，这款

2025年5月8日23时作者头部科技

SGLang团队在开源技术博客中介绍了如何优化DeepSeek模型，在96个H100 GPU上实现了显著性能提升。通过引入PD分解、TBO以及专家重新平衡等策略，提高了预填充和解码阶段的吞吐量，并减少了不平衡现象对性能的影响。