阿里 Qwen 团队深夜放毒，Qwen3 大模型家族来了！超越 DeepSeek-R1 与 o1？

下午2时 2025/04/29 作者 AI进修生

🍹 Insight Daily 🪺

Aitrainee | 公众号：AI进修生

Hi，这里是Aitrainee，欢迎阅读本期新文章。

这次直接开源+开放权重，一口气 8 款模型，从蚊子腿 0.6B 到巨无霸 235B，任君选择。

里面有 2 款 MoE 模型，6 款传统 Dense 模型。

旗舰款 Qwen3-235B-A22B，参数看着吓人，但活跃参数 22B。官方宣称，在编码、数学、通用能力这些硬核指标上，能跟 DeepSeek-R1, o1, o3-mini, Grok-3, Gemini-2.5-Pro 这些顶级选手掰手腕。

更牛的是小个子的 MoE 模型 Qwen3-30B-A3B，只用十分之一的活跃参数，就把自家前辈 QwQ-32B 给干翻了。

甚至连 Qwen3-4B 这种小不点，都能跟 Qwen2.5-72B-Instruct 打得有来有回。

怎么用？

在线体验： Qwen Chat 网页版 (https://chat.qwen.ai) 和 APP 已经能直接试用。
模型下载： Hugging Face, ModelScope 等平台已提供模型权重下载 (包括预训练和后训练版本)。
部署框架推荐： SGLang, vLLM。
本地运行工具推荐： Ollama, LMStudio, MLX, llama.cpp, KTransformers。

Benchmark 成绩单

先看小模型组 (MoE 30B & Dense 4B):

Qwen3-30B-A3B (MoE) vs QwQ-32B (老 MoE): 新 MoE 全面小胜，尤其在 ArenaHard、AIME、GPQA、LiveBench、BFCL、MultiIF 这些项目上更明显。长江后浪推前浪。
Qwen3-4B (Dense) vs Qwen2.5-72B-Instruct (老 72B): 4B 小钢炮有点猛，在 AIME、LiveBench、BFCL 这些地方甚至能跟老大哥 72B 打得有来有回，甚至反超。越级打怪了属于是。
Qwen3-30B-A3B (MoE) vs 竞品 (Gemma3, DeepSeek V3, GPT-4o): 新 30B MoE 对比这些对手，在 AIME、CodeForces、GPQA、LiveBench、MultiIF 上都不虚，甚至小优。

小模型能打，MoE 效率高，4B 性价比突出。

再看大模型组 (旗舰 MoE 235B & Dense 32B):

Qwen3-235B-A22B (旗舰 MoE) vs 顶级选手 (Gemini 2.5 Pro, o1, DeepSeek-R1): 旗舰 MoE 硬碰硬，跟 Gemini 2.5 Pro 在多个项目上打得难分难解 (AIME, CodeForces, LiveBench, BFCL)，基本不落下风。对 o1 和 DeepSeek-R1 则优势比较明显。实力够顶。
Qwen3-32B (Dense) vs 竞品 (o1, DeepSeek-R1, o3-mini): 32B Dense 也挺能打，跟 DeepSeek-R1、o3-mini 比，各有胜负，实力不俗。

旗舰 235B MoE 稳坐第一梯队，32B Dense 也是个强力选手。

其他亮点：

可伸缩推理预算 (Scalable Reasoning Budget): 性能提升跟计算推理预算直接挂钩。用户可以根据任务需求，灵活配置预算，平衡成本和效果。
支持 119 种语言和方言，国际化拉满。
Coding & Agent 能力优化： 特别加强了编码和 Agent 能力，还强化了对 MCP (模型上下文协议) 的支持。官方给出了 Qwen3 如何思考并与环境交互的例子。

阿里 Qwen3 这波开源发布，从超大杯到小甜点全覆盖，不仅旗舰模型性能直逼业界顶尖，小模型的表现也相当惊艳。加上可控推理预算、超强多语言能力和对 Agent/MCP 的优化，Qwen3 无疑给开源社区注入了新的强心针。想尝鲜的开发者可以开冲了。

Qwen3 代码能力实测：结论——可以加显卡了，本地最强开源编码模型。

博主 Karminski 放出 Qwen3 在 KCORES LLM Arena 上的代码测试结果。

直接上结论：想本地部署跑代码？Qwen3 就是目前开源模型里的最优选。

看具体测试：

20 小球七边形：小球会掉出来，摩擦力 casi 没有，但整体还行。得分 71，跟 Gemini-2.0-Flash 差不多。

Mandelbrot 分形：渲染范围太大，颜色搞反了。但渲染性能和准确度都不错。得分 89，追平自家 Qwen2.5-Max。

火星任务：表现很顶！知道往返都要窗口期 (很多模型都不知道)，误差不大。得分 49，仅次于 Gemini-2.5-Pro。

太阳系模拟：效果平平无奇，没土星环，没特效。但胜在没犯大错。得分 85，和 OpenAI-o4-mini 一档。

单项看没啥特别炸裂的，但架不住发挥稳定。

综合得分 329.6，直接冲到 KCORES 榜单第四，开源模型里排第一。

接下来就看 Aider Leaderboard 和 SWE Bench 的表现了。

评测地址：github.com/KCORES/kcores-LLM-Arena

社区已经出现一些编码实践了：

外国网友配梗图表示：

235B 大模型本地跑？苹果 M2 Ultra + MLX，Qwen3 跑出 28 toks/秒。

苹果的 AI 大佬 Awni Hannun 亲自下场，秀了一把 M2 Ultra 的肌肉。

他在 M2 Ultra (76 核, 192GB 内存) 上，用自家 mlx-lm 框架，成功跑起了刚发布的 Qwen3-235B MoE (22B 活跃参数) 模型。

4bit 量化后，模型占了大概 132GB 内存。

关键是速度：生成 580 个 token，跑出了 ~28 toks/秒。

这对于在消费级（虽然是顶配）芯片上跑这么大的模型来说，相当快了。

Awni 说他发推时，HF 上还没这个量化模型，他是自己用 mlx_lm.convert 转的。

想复现？命令也给了：先 mlx_lm.convert –hf-path Qwen/Qwen3-235B-A22B -q，再 mlx_lm.generate –model mlx_model –prompt “你的提示” –max-tokens 2048。

这操作，评论区直接：

有人惊叹：“这只是一台 M2 Ultra？” (是的！)
直呼：“Mac 要成推理神器了。”

看来苹果芯本地跑大模型，越来越有搞头了。

🌟 知音难求，自我修炼亦艰，抓住前沿技术的机遇，与我们一起成为创新的超级个体（把握AIGC时代的个人力量）。

参考链接：
[1] https://x.com/Alibaba_Qwen/status/1916962087676612998

点这里👇关注我，记得标星哦～

（文：AI进修生）

发表评论取消回复