720亿参数!华为首个开源大模型发布,用4000颗昇腾训练的
华为发布了盘古Pro MoE和盘古Embedded 7B两个新模型,并开源了基于昇腾的模型推理技术。盘古Pro MoE在多项基准测试中超越Qwen3-32B等模型;盘古Embedded 7B则具备灵活切换快慢思考的能力。
华为发布了盘古Pro MoE和盘古Embedded 7B两个新模型,并开源了基于昇腾的模型推理技术。盘古Pro MoE在多项基准测试中超越Qwen3-32B等模型;盘古Embedded 7B则具备灵活切换快慢思考的能力。
腾讯混元开源首个混合推理MoE模型Hunyuan-A13B,参数80亿,激活参数13亿,在多个基准测试中超越OpenAI等模型,支持数学、推理和Agent调用能力。
2025中国AI算力大会即将在北京举办,阿里云卢晓伟将作《超大规模MoE对AI基础设施带来的挑战和机遇》报告。会议涵盖AI推理算力、智算中心等专题论坛及研讨会。
华为团队发布的OmniPlacement方法有效解决了MoE模型的负载不均衡问题,优化后理论可降低10%推理延迟和提升约10%吞吐量,近期将全面开源。
LlamaCon。现场,该公司宣布推出一款面向消费者的独立 Meta AI 聊天机器人应用程序,这款
SGLang团队在开源技术博客中介绍了如何优化DeepSeek模型,在96个H100 GPU上实现了显著性能提升。通过引入PD分解、TBO以及专家重新平衡等策略,提高了预填充和解码阶段的吞吐量,并减少了不平衡现象对性能的影响。
阿里巴巴发布Qwen3系列模型,包括两个专家混合(MoE)模型和六个Dense模型,并开源了部分权重。该系列在多个基准测试中表现出与OpenAI等顶级模型相当的性能。Qwen3还具有高效的“思考模式”,支持119种语言且训练数据量是Qwen2.5的两倍,有助于Agent调用。部署成本显著降低,整体推理成本也有所节省。