性能超越DeepSeek R1,Qwen3正式登场!阿里一口气放出8款大模型,登顶开源王座!

整理 | 屠敏
出品 | CSDN(ID:CSDNnews)

今天凌晨,大模型领域最受关注的重磅消息来自阿里 Qwen 团队——他们正式发布了备受期待的全新 Qwen3 系列大模型。

不同于以往,这次其一次性开源了多达 8 款混合推理模型,在性能上全面逼近 OpenAI、Google 等闭源大模型,以及超越了开源大模型 DeepSeek R1,堪称当前最强的开源模型之一,也难怪昨晚 Qwen 团队一直在加班。

8 大模型齐发!

这 8 款混合推理模型中,包括了 2 个 MOE 模型:Qwen3-235B-A22B  Qwen3-30B-A3B

其中,Qwen3-235B-A22B 是本次发布中规模最大的旗舰模型,拥有 2350 亿个参数,激活参数超过 220 亿。

在代码、数学和通用能力等多个基准测试中,它的表现不仅超过了 DeepSeek 的 R1 开源模型,还优于 OpenAI 的闭源模型 o1。尤其在软件工程和数学领域的 ArenaHard 测试(共 500 道题)中,成绩甚至接近了 Google 最新发布的 Gemini 2.5-Pro,可见其实力不容小觑。

另一个 MOE 模型 Qwen3-30B-A3B 拥有 300 亿总参数,激活参数仅为 QwQ-32B 的 10%,约 30 亿,但实际表现却更胜一筹。甚至像 Qwen3-4B 这样的小模型,也能达到 Qwen2.5-72B-Instruct 的水平。

除了上述两款 MOE 模型,此次还发布了 6 款 Dense 模型,分别是:Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B这些模型在规模和结构上各不相同,方便用户根据具体需求和计算资源进行选择。

以上所有模型均在 Apache 2.0 许可协议下开源,对开发者和研究者开放。

国内首个混合推理模型来了

从能力上来看,Qwen3 系列模型经过特别训练,支持两种“思考模式”:快思考和慢思考,用官方的话就是“思考模式”和“非思考模式”。

  • 思考模式:在这种模式下,模型会逐步推理,经过深思熟虑后给出最终答案。这种方法非常适合需要深入思考的复杂问题。

  • 非思考模式:在此模式中,模型提供快速、近乎即时的响应,适用于那些对速度要求高于深度的简单问题。

正因此,Qwen3 是国内首个混合推理模型。

简单来说,就是 Qwen3 可以根据问题的难度,选择是快速给出答案,还是花更多时间进行更深层次的分析和推理。比如遇到一些复杂的数学、科学或工程类问题时,你可以切换到“深度思考模式”,让模型用更强的推理能力来处理问题。

Qwen 团队在技术报告中解释道,“Qwen3 展现出可扩展且平滑的性能提升,这与分配的计算推理预算直接相关。这样的设计让用户能够更轻松地为不同任务配置特定的预算,在成本效益和推理质量之间实现更优的平衡。

使用方法也很简单:在 Qwen Chat 网站 上,有一个专门的按钮可以切换“思考模式”;如果你是在本地部署或者通过 API 使用模型,也可以通过输入指令,比如 /think 或 /no_think,自由切换不同模式,让模型根据任务难度灵活应对

另外,Qwen3 的多语言能力也有了很大提升,目前已经能支持多达 119 种语言和方言,基本覆盖了全球主要的语言体系。

还有一点也很值得关注,Qwen3 在智能体(Agent)能力和编程(代码)方面也变得更强了,同时也更好地支持了 MCP 技术。下面这个视频展示 Qwen3 是如何思考并与环境进行交互的:

目前,经过后训练优化的 Qwen3 系列模型已经可以在多个平台上访问和部署,例如 Qwen3-30B-A3B,以及对应的预训练基座模型(如 Qwen3-30B-A3B-Base),已在 Hugging Face、ModelScope 和 Kaggle 等平台上线,面向公众开放使用。

普通用户也可以直接在 Qwen Chat 网页手机 App 上使用。

快速体验 Qwen3 系列:

  • Qwen Chat 网页版:https://chat.qwen.ai/

  • GitHub:https://github.com/QwenLM/Qwen3

  • Hugging Face:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

  • 魔搭社区:https://modelscope.cn/collections/Qwen3-9743180bdc6b48

在部署方面,官方推荐使用 SGLang 和 vLLM 等推理框架,以获得更好的性能和易用性。对于本地部署场景,Ollama、LMStudio、MLX、llama.cpp 以及 KTransformers 等工具也提供了便捷的支持。

Qwen3 强大的背后,离不开多阶段的预训练和后训练

在模型预训练方面,Qwen3 相比之前的 Qwen2.5 有了大幅提升。此前 Qwen2.5 是在 18 万亿个 token 上进行预训练的,而 Qwen3 预训练使用的数据量几乎是其两倍,达到大约 36 万亿个 token,涵盖了 119 种语言和方言。

这些数据来源包括网页抓取内容、PDF 文档提取,还有用早期  Qwen2.5-Math 和 Qwen2.5-Coder 这两个数学和代码领域的专家模型合成数据,合成了包括教科书、问答对以及代码片段等多种形式的数据。

预训练

据官方技术报告介绍,Qwen3 的预训练流程分为三个阶段:

在第一阶段(S1),模型在超过 30 万亿个 token 的海量数据上进行了初步训练,处理的文本长度是 4K token,主要目的是打下基本的语言理解和通用知识基础。

到了第二阶段(S2),训练重点有所调整,加入了更多像  STEM(科学、技术、工程、数学)、编程和推理相关的专业数据,同时又在额外 5 万亿个 token 上进行了强化训练,进一步提升模型的专业能力。

最后,在第三阶段,Qwen 团队用高质量的长文本数据,把模型的上下文长度扩展到了 32K token,让它能更好地处理超长输入,适应更复杂的应用场景。

得益于模型架构的优化、训练数据量的增加,以及更高效的训练方法,Qwen3 的 Dense(密集)基础模型整体表现已经追上了体积更大的 Qwen2.5 版本。比如,Qwen3 的 1.7B、4B、8B、14B 和 32B 基础模型,整体能力分别能对标 Qwen2.5 的 3B、7B、14B、32B 和 72B 模型。

尤其在 STEM(科学、技术、工程、数学)、编程和推理这类专业领域,Qwen3 的表现甚至比 Qwen2.5 的大模型还要更好。

而对于 Qwen3 的 MoE(混合专家)基础模型来说,它们每次推理时只激活大约 10% 的参数,但依然能做到接近 Qwen2.5 Dense 基础模型的效果。这意味着,在保持高性能的同时,训练和推理的成本大大降低了。

后训练

为了打造既能深度推理又能快速响应的混合型大模型,Qwen3 团队设计并执行了一套四阶段的后训练流程。具体包括:(1)长链推理冷启动、(2)长链推理强化学习、(3)思考与非思考模式融合、以及(4)通用能力强化学习。

在第一阶段,该团队通过大量涵盖数学、编程、逻辑推理和 STEM 等领域的长链推理数据,对模型进行了微调,打下了基本的推理能力基础。

第二阶段则引入了大规模的强化学习,通过设定规则奖励,引导模型在复杂问题中探索得更深入、更细致。

到了第三阶段,训练目标转向融合思考模式与快速响应模式。 Qwen 团队用一套混合了长链推理和常规指令微调的数据,对模型进行了再次微调,让它既能深度思考,又能根据任务需求快速作答,实现两种能力的平滑切换。

最后,在第四阶段,模型接受了更广泛领域的强化训练,覆盖指令遵循、格式规范、Agent 能力等二十多个方向,进一步提升了模型的通用性,同时修正了在早期训练中可能出现的不良行为。

登顶开源宝座

这次阿里发布 Qwen3,毫无疑问是一次重磅操作。据了解,阿里至今已向全球开源 200 多款模型,千问衍生模型数量已突破 10万,超越美国 Meta 的 Llama 系列,成为全球最大的开源模型族群。可以说,Qwen3 的发布不是一次普通的升级,而是真正的“登顶”。

外媒 Venturebeat 也对此做出了高度评价,称对于企业来说,接入 Qwen3 非常高效,几小时内就能将现有的 OpenAI 接口系统切换到新模型,根本不用几周。Qwen3 的专家混合模型(MoE),在显存使用上相当节省,20-30B 规模模型的显存成本就能实现接近 GPT-4 的推理能力。

更有意思的是,Qwen3 提供了从 0.6B 到 32B 不同规模的密集模型版本,用户可以从笔记本小规模测试,一路扩展到多卡大集群,过程中几乎不用调整提示词。

Qwen3 发布后,在用户层也受到了广泛好评。其 GitHub 页面迅速获得了 17.9k 个 Star 和 1.2k 的 Fork,热度可见一斑。

在社交媒体上,不少网友们分享自己的一手体验感受。

有用户表示:“我刚试用了 @Alibaba_Qwen 的 Qwen3。

在需要快速响应时,它非常迅速;面对复杂问题时,它会花时间思考。它不是随便给个答案,而是经过深思熟虑,给出准确的结果。

在编程方面,它表现出色;在数学问题上,它依然冷静应对。

在语言处理上,它听起来很自然,不像其他模型那样怪异。令我惊讶的是,它甚至支持多达 119 种语言。

很久没见过这么优秀的开源模型了。”

也有网友 Jafar Najafov 感叹道:“这真是令人震惊。我将 Qwen3 和同规模的 Llama 进行对比,Qwen3 的推理更深入,处理长上下文和解决复杂问题的速度都更快。它完全开源,原生支持混合推理,采用 Apache 2.0 许可证。这不仅仅是更好,简直是全新的升级!”

甚至苹果工程师 Awni Hannun 也在第一时间用 M2 苹果设备跑了 Qwen3 模型,随即发声道:“Qwen3 235B MoE(22B 激活参数)在 M2 Ultra 上通过 mlx-lm 运行得非常快。4 位模型大约用 132GB 内存,生成 580 个 token 的速度约为每秒 28 个!”

整体看来,Qwen3 的上线,AI 圈的反响都不错。

对此,Qwen 团队开源负责人林俊旸在 X 平台上表示,Qwen3 的开发过程中,团队解决了很多重要但容易被忽视的问题,比如:稳定的训练来扩展强化学习(RL)、平衡多领域数据,以及在提升多语言能力的同时不牺牲质量。

他还透露,未来团队将把重点转向训练能够进行长周期推理、执行真实世界任务的智能体。

那么,你体验上了 Qwen3 了吗?感觉怎么样?欢迎留言分享你的看法。

来源:

https://qwenlm.github.io/zh/blog/qwen3/

https://venturebeat.com/ai/alibaba-launches-open-source-qwen3-model-that-surpasses-openai-o1-and-deepseek-r1/

https://github.com/QwenLM/Qwen3

(文:AI科技大本营)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往