阿里Qwen3技术报告核心要点解读！

下午2时 2025/05/15 作者 PaperAgent

阿里Qwen3技术报告正式发布，相关的模型架构、预训练及后训练过程等技术细节都有披露。

近期Qwen3的各种尺寸更小的量化模型也在各开源社区上架，有需要可关注。

模型架构

密集模型架构：包含6个密集模型，架构与Qwen2.5相似，包含GQA、SwiGLU、RoPE以及带预归一化的RMSNorm等，移除了QKV-bias，在注意力机制中引入QK-Norm，以确保训练稳定性。
混合专家模型架构：包含2个混合专家模型，与密集模型共享基础架构，沿用Qwen2.5-MoE的架构，加入细粒度专家分段设计，共128个专家，每个token激活8个专家，舍弃共享专家模块，采用全局批次负载均衡损失技术促进专家专业化。

预训练

预训练数据：与Qwen2.5相比，预训练token数量是之前的两倍，涵盖的语言数量达到其三倍以上，数据集包含119种语言和方言，总计36万亿tokens，涵盖多个领域的高质量内容，通过多种方式扩展预训练语料库，包括使用Qwen2.5-VL模型对文档进行文本识别、利用Qwen2.5模型优化文本、合成多种形式的文本token等。
三阶段预训练：

通用知识学习阶段：使用4,096 tokens的序列长度，对超过30万亿tokens的数据进行训练，聚焦于语言结构、语法、常识与通用世界知识的学习。
推理能力强化阶段：增加STEM、编程、推理和合成数据的比例，使用约5万亿高质量tokens进行进一步预训练，加速学习率的衰减。
长上下文扩展阶段：构建专门的高质量长上下文语料库，序列长度最高达32,768个tokens，使用ABF技术提升RoPE的基频，引入YARN和双块注意力机制，提升推理过程中的序列长度容量。

预训练结果评估：Qwen3系列的基础语言模型在通用知识、推理能力、数学水平、科学知识、编程能力以及多语言任务等方面表现优异，优于之前的先进开源模型，且在激活参数和总参数较少的情况下，Qwen3的MoE基础模型和密集基础模型均展现出良好的性能。

后训练

四阶段训练：

长链式思维冷启动阶段：构建包含数学、代码、逻辑推理和STEM问题的高质量数据集，进行严格的两阶段过滤流程，建立模型的基础推理范式。
推理强化学习阶段：收集查询-验证对，采用GRPO方法更新模型参数，通过控制模型的熵值平衡探索与实用之间的关系，提升模型的推理能力。
思考模式融合阶段：对推理强化学习模型进行监督微调，设计对话模板融合“非思考”能力，使模型能够在不同思考模式下作出响应，并处理中间情况。
通用强化学习阶段：建立复杂的奖励系统，覆盖多种任务，使用三种不同类型的奖励机制，全面增强模型在各种场景下的能力与稳定性。

从强到弱蒸馏：涵盖5个密集模型和1个MoE模型，分为Off-policy蒸馏和On-policy蒸馏两个阶段，提升轻量级模型的推理能力，赋予其稳健的模式切换能力。
后训练结果评估：旗舰模型Qwen3-235B-A22B展现出当前开源模型中最先进的整体性能，与顶尖闭源模型具有高度竞争力；旗舰密集模型Qwen3-32B在推理能力上优于之前的模型，且在非思考模式下表现出色；轻量级模型在性能上持续优于参数量相近甚至更大的开源模型，验证了强到弱蒸馏方法的有效性。

更多信息：《动手设计AI Agents：CrewAI版》、《高级RAG之36技》、新技术实战：中文Lazy-GraphRAG/Manus+MCP/GRPO+Agent、大模型日报/月报、最新技术热点追踪解读（GPT4-o/数字人/MCP/Gemini 2.5 Pro）

报告下载：https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf

（文：PaperAgent）

发表评论取消回复