AI好好用报道
又来了一个深度思考模型。
昨天,阿里 Qwen 团队发了个博客,标题就是:
乍一看,还以为电脑卡出了乱码,但再往下一瞅,里头大有「乾坤」,因为这篇博客:
不是人写的。
而是出自阿里最新深度思考模型 QwQ-Max-Preview 之手。

没想到,浓眉大眼的阿里也开始搞抽象了。

QwQ-Max-Preview,是阿里 Qwen 家族的最新成果。
它基于 Qwen2.5-Max 构建,是即将发布的 QwQ-Max 的预览版。
该博客还表示,在不久之后,阿里将开源发布 QwQ-Max 以及 Qwen2.5-Max,并推出 Qwen Chat APP。
嗯,啥意思?难道是在现有的通义千问 App 之外,再独立搞一个新 App?
至于 QwQ-Max-Preview 的功能,博客里是这么描述的:
它在数学、编程以及通用任务中展现了更强的能力,同时在与 Agent 相关的工作流中也有不错的表现。
自己说好不算好,大家说好才是真的好。
目前,QwQ-Max-Preview 可以免费体验。
链接直达:https://chat.qwen.ai/
接下来,我们就把它和「地表最强」Grok3 对比下,看看它的实力究竟如何。
与 Grok3 类似,阿里 QwQ-Max-Preview 的页面也具有「深度搜索」和「联网搜索」两大功能。

先来个暗藏玄机的逻辑陷阱题。
1. 父亲和女儿的年龄加起来是 100 岁,父亲 50 岁,女儿多大?
看到这道题目,大部分人的第一反应就是女儿 50 岁。但在现实生活中,父亲和女儿不可能同岁。
所以只要抓住这一矛盾点,再进行延伸即可,比如父亲有一对双胞胎女儿……
阿里的 QwQ-Max-Preview 觉察出其中的逻辑漏洞,措辞相当严谨:
仅从数学角度出发,答案是 50 岁,但后面还加了个备注,不符合实际逻辑。

我们再来看看 Grok3 的回答。
Grok3 列了个方程得出 50 岁,同时也点出这在现实中并不常见。
我们在此基础上接着问:在不改变父亲年龄和总年龄的情况下,如何思考才能让这道题目符合实际逻辑?
QwQ-Max-Preview 跳出生物学亲子关系的常规假设,重新定义了「父女」关系,比如收养关系。
我们沿着它的思维链,还发现了更多假设。
科幻片中的经典桥段,存在时间旅行,或者是类似于电影《本杰明・巴顿奇事》中的逆生长等。
语言上的歧义,父亲可能是神父,女儿可能是教女。
思路一打开,这么理解好像也没啥毛病。
而 Grok3 的脑回路更清奇一些。一会假设「父亲」是祖父,「女儿」是孙女(差辈了😂);一会称题目可能暗示了特殊的时间视角。
反复推翻后,最后给出一个模糊的解释「题目是为了引导我们反思年龄关系和问题背景,而非给出一个具体的女儿年龄。」
2. 大舅去二舅家找三舅说四舅被五舅骗去六舅家偷七舅放在八舅柜子里九舅借给十舅发给十一舅工资的 1000 元。请问谁才是小偷?
面对这段跟绕口令一样的经典题目,QwQ-Max-Preview 和 Grok3 并没有被绕晕,均回答正确。
不过,相比于 Grok3,QwQ-Max-Preview 给出的回答更为简洁清晰。
一上来先给答案,然后进行行为分解、法律和逻辑定性,最后还来个误区澄清。
Grok3 则是先理解句子结构,发现三舅说的内容是重点,再从中明确小偷,最后验证逻辑。
这一局,它们打了个平手。
3. 在一个封闭房间里有三盏灯,门外有三个开关,每个开关分别控制一盏灯。你只能进房间一次。如何判断出每个开关对应哪盏灯?
这道题目俩大模型都回答正确。
QwQ-Max-Preview 回答得更为条理清楚,对于逻辑的核心,仅用一句话就解释得明明白白:通过温度差异(冷热)和当前状态(亮灭)组合就能一次性区分。

Grok3 的思路和 QwQ-Max-Preview 一致,就是回答过于繁琐。
总体来说,这一轮,它俩实力相当。
对于比大小、数数等经典数学题,现在均难不倒它们。
QwQ-Max-Preview:
Grok3:
QwQ-Max-Preview:
Grok3:
-2-
联网搜索
我们再来试试它们的联网搜索。
值得注意的是,阿里 QwQ-Max-Preview 可以同时启用「深度思考」和「联网搜索」,而 Grok3 则不能。
介绍一下马斯克让美国公务员写周报这件事,并以表格的形式总结网友评价。
阿里 QwQ-Max-Preview 搜集了 10 个来源,包括新浪网、腾讯新闻、网易新闻等新闻网站。
对于事件背景,QwQ-Max-Preview 总结得相对简单,但它生成的表格可以直接导出到 CSV。
而 Grok3 则扒了 16 个网页和 22 篇帖子,信息来源包括《纽约时报》、路透社、CBS 等传统媒体以及 X 社交平台。
Grok3 的回答会更丰富,不过表格中网友评价角度较少。
(文:AI好好用)