

智东西2月25日报道,今天,阿里通义千问团队推出QwQ-Max-Preview深度思考模型,并支持联网搜索,展现出超强的通用能力,不仅现场锐评了最新的《哪吒2》电影,还能写代码、做数学题,并可以胜任创意写作、游戏开发等开放性任务。这款模型会在不久后开源,目前已在通义千问的新官网上线,仅需点击聊天框左下角的“深度思考(QwQ)”按钮即可体验。
QwQ-Max-Preview的博客文章有满屏醒目的颜文字,并附上跳转到体验页面和Discord的链接,还特别标注出这篇博客是正是由新模型亲自操刀的,模型撰写博客时的思考过程也被一并呈现在文内。

体验链接:https://chat.qwen.ai/
Discord链接:https://discord.com/invite/yPEP2vHTu4
在DeepSeek推出DeepSeek-R1深度思考模型后,阿里和腾讯都争相推出了类R1的深度推理模型。QwQ-Max-Preview基于Qwen2.5-Max构建,在数学、编程以及通用任务中展现了更强的能力,同时在与Agent相关的工作流中也有不错的表现。作为即将发布的QwQ-Max的预览版,这个版本还在持续优化中。
通义千问团队计划在不久的将来以Apache 2.0许可协议开源发布QwQ-Max以及Qwen2.5-Max。此外,通义千问计划面向全球用户推出Qwen Chat App,并开源更适合端侧的小尺寸推理模型。
通义千问的深度思考模型能与联网功能结合,根据实时互联网信息进行推理,先来看看通义千问是怎么评价《哪吒2》的。在打开深度思考和联网搜索功能后,千问快速查询互联网信息,并在思考过程中与答案里都清晰地引用信源。

下方是QwQ对《哪吒2》的评价,截图后由Qwen2.5-VL-72B-Instruct翻译:

下一个案例主要展现了模型的代码能力。提示词为“创建一个p5.js脚本,用于在旋转的球体内创建100个弹跳的黄色小球。小球被限制在球体内,并且正确处理了碰撞检测。球体缓慢旋转以产生动态效果。”

长时间思考后,QwQ-Max-Preview输出了71行代码,并附上了对代码主要功能的描述和使用指南,可以说是十分全面了。复制代码并运行后,可以看到动画的效果基本符合提示词要求。

不过,当智东西将同款提示词甩给体验链接中的QwQ-Max-Preview,它给出的代码运行后可以说是“车祸现场”,黄色小球漫天飞舞,完全忽视了“小球被限制在球体内”这一要求。这一现象或许是由于预览版本尚不稳定。

接下来的测试任务是游戏开发。QwQ-Max-Preview收到的需求是:“在同一个HTML文件中创建一个游戏。发挥你的想象力,将俄罗斯方块和2048游戏结合成一个游戏。”

模型开发出的新游戏确实将两款游戏的玩法结合了起来,原版2048游戏是通过滑动方块进行相同数字的消除,而新游戏中数字将会从上方掉落,需要玩家进行操作并消除。

这款模型还能胜任更为复杂的游戏开发任务,例如下方提示词这种带调整的:
创建一个棋盘游戏网页,显示一个六边形网格,就像在《卡坦岛》游戏中一样。每个六边形网格都标有从1到N的数字,其中N是六边形格子的总数。使其具有通用性,以便可以使用滑块更改“环”的数量。例如,在《卡坦岛》中,半径为3个六边形。请使用单个HTML页面。
案例中模型对提示词的理解还是比较到位的,拖动滑块确实可以修改环的数量。

不过,在我们用同样提示词进行的实测中,完成效果依旧不太理想,从六边形的形状到格子的排列,都与原提示词的要求有些偏差,还出现了超出显示范围的问题。或许在未来正式版发布后,这些问题能得到解决。

通义千问思考模型本次还融入了Agent能力,支持工具选择,不过目前的体验版本尚不支持。在博客文章中提供的案例里,可以看到这些工具包括图像生成、物流追踪、二维码生成、港股行情等。

示例中,测试人员选择了二维码生成器和图像生成两款工具,要求模型生成一个穿着白色连衣裙的女孩,然后展示一个指向taobao.com的二维码图片。
生成结果是这样的,可以看到模型选择了二次元的画风,画面内容符合要求,二维码实测也可以跳转至淘宝官网。

据通义千问团队介绍,本次他们既会开源满血版思考模型,也将推出轻量级的变体,还会将其融入应用,此举是为了让不同层次用户都能体验到这款模型的能力。他们也邀请全球开发者社群对这些模型进行实验、优化和扩展,探索从教育工具到agent等多样化应用场景。
QwQ-Max-Preview的发布及将要到来的开源,意味着阿里也正式加入了这波推理模型的开源潮。阿里的Qwen系列模型作为当今全球影响力最大的开源模型家族之一,衍生模型数量已经超过9万个,还霸榜了Hugging Face开源榜单的全球前10名。在正式版的QwQ-Max开源发布后,或许还会给全球开发者带来更多的惊喜。
(文:智东西)