在一个多月的沉寂之后阿里的大招终于放出来了,昨晚千问 3 全系列模型开源。
这几个月虽然新的模型不断发布,但是大多数都是不开源的模型,o3 和 Claude 3.7 虽然强,但是贵的离谱。
万众期待的 Llama 4 更是拉了坨大的,基本不可用,Meta 也是表演了一波电表倒转。
所以千问团队实际上已经替代了 Meta 在 LLM 开源界的地位。
这段时间 Agent 和 AI 编码的发展对模型能力提出了更高的要求,但是国内产品可用的模型相当有限。
索幸这次千问没有辜负大家的期望:
模型能力大幅提升,再次刷新开源榜单、代码数学能力都有提升,还原生支持了各种 Agents 功能。
藏师傅这里除了介绍模型升级内容外,也对模型进行了一系列测试,确实非常厉害,尤其是 Agents 和 MCP 支持,国内 Agents 产品真的苦模型久矣。
模型介绍
先介绍一下模型本身,藏师傅也用自己的网页生成提示词,写了一个可视化网页帮助大家了解这次千问 3 的内容:https://u3vbq47090.app.yourware.so/
这次阿里一共开源了 8 个不同尺寸的模型,基本各个场景都覆盖到了,既有 0.6B 可以在手机上跑的也有 235B 的 MoE 推理模型,具体的型号有:
- 6款Dense模型:0.6B、1.7B、4B、8B、14B、32B
- 2款MoE模型:Qwen3-30B-A3B和旗舰版 Qwen3-235B-A22B
最大的这个 Qwen3-235B-A22B 在强劲性能的基础上,部署成本显著下降。
Qwen3-30B-A3B 的激活参数只有 3B ,性能却可以跟 QWQ-32B 打平,成本只有10%,可以在消费级显卡上部署。而且这次还有0.6B的小参数模型适合在移动设备上面部署。

这次的千问 3 可以说是全方位升级,在性能上千问3的每个尺寸得分都是同尺寸开源最强。
Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 相比,表现出极具竞争力的结果。
此外,小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%,表现更胜一筹


千问3原生支持推理和非推理两种模式,用户支持硬开关,也支持根据问题自行判断的形式。
简单问题可以快速输出节约资源,复杂问题就会启用推理模型逐步推理。
而且千问3跟市面上其他推理模型不同,在模型切换的时候基本不会损失性能。

原生支持各种 Agents 功能和 MCP 协议
在专门评估模型Agent能力的BFCL评测中,千问 3 的得分也是开源模型最高的。
原生支持MCP协议,而且具备强大的function calling能力,如果配合千问开源的 Qwen Agent 框架可以快速低成本部署Agent 服务。
这个对于国内一众 Agent 应用来说太重要了,产品能力直接提升一个台阶。
那么如何使用千问 3 呢?
你可以在千问 app 或者千问网页版(https://chat.qwen.ai/)使用,阿里百炼平台也提供了 API。
如果你想要本地体验的话 Ollama 也支持了全系的千问 3 模型和 GGUF 量化版本,如果你不知道你的 Mac 内存可以运行多大的模型的话我这里让 o3 整理了一张图片供你参考。

代码能力测试
代码能力这里就要掏出藏师傅祖传前端提示词了还有那个特斯拉财报分析文件,让他基于文档和我的提示词生成网页,可以看到相较于 Qwen 原来的前端代码水平进步相当之大,基本上理解和执行了提示词中的所有要求。
## 歸藏的 Bento Grid 网页生成提示词 0423
帮我将这个{特斯拉财报文档}生成一个 HTML 动态网页,具体要求是:
1. 使用Bento Grid风格的视觉设计,纯黑色底配合特斯拉红色#E31937作为高亮
2. 强调超大字体或数字突出核心要点,画面中有超大视觉元素强调重点,与小元素的比例形成反差
3. 中英文混用,中文大字体粗体,英文小字作为点缀
4. 简洁的勾线图形化作为数据可视化或者配图元素
5. 运用高亮色自身透明度渐变制造科技感,但是不同高亮色不要互相渐变
6. 模仿 apple 官网的动效,向下滚动鼠标配合动效
7. 数据可以引用在线的图表组件,样式需要跟主题一致
8. 使用HTML5、TailwindCSS 3.0+(通过CDN引入)和必要的JavaScript
9. 使用专业图标库如Font Awesome或Material Icons (通过CDN引入)
10. 避免使用emoji作为主要图标
11. 不要省略内容要点


Agent 能力测试
这部分才是重头戏,这里藏师傅用了之前最复杂的一个 MCP 提示,模型需要一次性调用六个不同的 MCP 和同一个 MCP 中不同的功能完成任务,还得生成对应网页。
以往这个测试只有 Claude 3.7 或者 Gemini 2.5Pro 才能完成,不仅是对工具使用能力的考验,更是对上下文长度、提示词理解的考验。
整个测试需要用高德 MCP 查询当前位置的天气,然后给出穿衣建议,然后用 Exa MCP 搜索当地新闻,之后用 Obsidian MCP 检索最近收藏的文章,最后讲这些整理为口播稿传给 Minimax MCP 生成播客音频,在之后基于返回的音频文件和口播内容写一个网页展示。
我用同样的提示词在 Deepseek V3 0324 试了一下 V3 只调用了两个 MCP 就停止了。
但是千问 3 完成的非常好,直接一次性搞定了所有 MCP 的调用并且正常生成了网页,这个太牛了,基本上代表着在 Agent 服务上千问追上了那些顶尖闭源模型。
请创建一个以我为中心的个性化播客系统,包含根据我的位置、当地资讯和个人收藏内容生成的播客音频,以及一个设计精美的网易云音乐风格播放页面。
## 信息收集与内容生成流程
1.**位置与天气信息**
- 使用高德地图API (gaode MCP) 获取我的当前位置
- 获取当前天气状况、温度范围和空气质量
- 基于天气数据提供合理的穿衣建议
2.**本地新闻整合**
- 通过 Exa MCP 查询我所在地区昨日的重要新闻
- 筛选3-5条最具影响力或与我可能相关的新闻
- 以简明扼要的方式总结每条新闻要点
3.**个人收藏内容分析**
- 通过 Obsidian MCP 访问我最近7天内收藏在{剪藏文件}文件夹的文章
- 提取关键主题和有价值的见解
- 将这些内容组织为2-3个值得分享的要点
4.**播客脚本创作**
- 创建一个虚拟主播角色,赋予其独特的个性和语言风格
- 按照以下结构组织内容:开场问候→位置介绍→天气播报与穿衣建议→本地新闻速览→个人收藏内容精华→结束语
- 总时长控制在3-5分钟
- 融入自然的转场和适当的幽默元素,保持专业播客的流畅感
5.**音频合成**
- 使用 Minimax MCP 选择最适合虚拟主播风格的声音
- 生成自然、富有表现力的播客音频
- 确保语速、语调和停顿符合专业播客标准
## 网页设计与实现要求
### 视觉设计
- 基于**网易云音乐**风格,以白色为底色,搭配#FE1110(或相近)的高亮色
- 主次分明的视觉层次,运用**超大字体/数字**突出核心内容
- 中英文混排设计:中文使用大号粗体,英文作为精致小字点缀
- 高亮色采用自身透明度渐变制造科技感,避免不同高亮色互相渐变
### 界面元素
- 使用简洁勾线风格的图形化元素呈现数据和配图
- 播放控制区域设计醒目且易操作
- 设置明确的内容区域划分,包括:播客标题、日期、天气信息、新闻摘要和个人收藏内容板块
### 交互与动效
- 模仿Apple官网的滚动动效体验
- 实现音频播放进度条与时间显示
- 关键内容在滚动时有优雅的出现和强调效果
### 技术实现
- 使用HTML5、TailwindCSS 3.0+(通过CDN引入)和必要的JavaScript
- 引入专业图标库如Font Awesome或Material Icons(通过CDN)
- 实现响应式设计,确保在桌面和移动设备上都有良好体验
- 避免使用emoji作为主要图标,保持设计的专业性
### 内容呈现
- 播客文字内容完整展示,分段清晰
- 天气和新闻数据通过简洁图表可视化展示
- 为个人收藏内容添加简洁的标签或分类标识
## 输出要求
1. 完整的播客脚本文本
2. Minimax生成的音频链接
3. 可直接使用的完整HTML/CSS/JS代码,实现上述所有功能和设计要求
如遇任何API访问限制,请使用合理的模拟数据,并在最终输出中标注。
结尾
千问 3 这次开源全系列模型和 Agent使用的能力不仅填补了高性能开源模型的空缺,更是科技普惠的代表,把AI红利变成了一种公共资源。在闭源模型不断拉高价格门槛的当下,技术的可及性或许比极致性能更为重要。
开源不仅是共享代码和模型权重,更是共享未来。
如果觉的有收获的话可以帮我点个👍或者喜欢🩷,也可以推荐给你有需要的朋友。
(文:归藏的AI工具箱)