混合专家归档 - 每时AI

Linear-MoE：线性注意力遇上混合专家的开源实践

下午11时 2025/05/29 作者机器之心

近年来，大语言模型的研究热点转向了线性序列建模和混合专家架构的高效结合。来自上海人工智能实验室团队的Linear-MoE首次系统地实现了这两者的结合，并开源了完整的技术框架，支持层间混合架构。

Qwen3发布！超DeepSeek R1登顶开源榜，还带来了跟R1不同配方

上午11时 2025/04/29 作者硅星人Pro

阿里巴巴开源新一代通义千问Qwen3系列模型，包含8款不同尺寸。旗舰模型Qwen3 235B采用混合专家（MoE）架构，在多项测评中超越DeepSeek-R1、OpenAI-o1等主流模型。性能提升体现在推理、指令遵循、工具调用、多语言能力等方面。Qwen3全尺寸发布后，社区反响热烈，参数正在“变小”但保持出色表现。

一次推理解决复合问题：基于MoE的大语言模型知识模块可扩展融合推理架构MeteoRA

下午4时 2025/02/22 作者机器之心

多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，

每月都有重磅研究，2024全年值得一读的论文都在这了

下午4时 2025/01/01 作者机器之心

机器之心报道
机器之心编辑部
2024 年，是 AI 领域让人兴奋的一年。在这一年中，各大科技公司、

OpenAI科学家盛赞中国大模型：算法非常强，算力用到极致！

上午8时 2024/12/30 作者 AIGC开放社区

OpenAI联合创始人Andrej Karpathy分享了中国开源大模型DeepSeek-v3，仅使用280万小时GPU算力即超越Llama-3。该模型在多种基准测试中表现优异，并采用MLA和MoE等高效策略节省大量计算资源。

收敛速度最高8倍，准确率提升超30%！华科发布MoE Jetpack框架 NeurIPS 2024

下午9时 2024/11/20 作者每时AI

华中科技大学提出MoE Jetpack框架，利用密集激活模型权重微调出混合专家（MoE）模型，大幅提升了精度和收敛速度，解决MoE预训练需求高问题。