
最近,看到一个有意思的AI题:
我拿着一根5.5米长的竹竿,能否通过高4米、宽3米的门?
能不能通过?你想一下。
3
2
1
……
你是不是想出了答案?别急,我们先来看看这些推理模型的回答。
首先登场的,是今晚刚刚全量上线“深度思考”功能的豆包。

斩钉截铁,不能。
然后,是国产推理模型扛把子DeepSeek-R1。

它在想了52秒后,遗憾回答:无法通过。
我猜想,DeepSeek-R1的内心一定经历了很多挣扎,才得出这个答案。我们来看看它的思考过程吧。

既然都已经想到了三维空间,可为什么又把自己给绕回去了呢?
而且,自己也提到了,竹竿可以先从门外移动到门内,将竹竿倾斜……但怎么又去考虑投影、对角线之类乱七八糟的东西。
一通操作猛如虎,结论:不能。
接着,我们来看下刚刚登顶iOS免费应用榜的腾讯元宝。这里,我选用的混元自己的推理模型T1。

T1很擅长做题,但思维陷在二维空间里,答案依旧是:不能。
继续,我们看下Kimi推理模型K1.5的表现(已关掉联网)。

答案很简单:不能。
那智谱GLM-zero呢?

跟T1一样,也是擅长做题,还是回答「不能」。
国内模型不行,那我们试试国外的?
OpenAI你先来,毕竟你是推理模型的鼻祖。

“能通过”哇,终于有模型答对了。等等……
我们再来看下它的回答,“竹竿长5.5米,比门的对角线长,所以竹竿是能够通过这个门。”
WTF?你要不要看看你自己在说什么?这不明显的胡说八道嘛。
那我们来看看马老板的x AI呢,这里我用的是Grok3的推理模式。

Grok3思考了70s,是目前遇到推理时间最长的模型了。不过,长有长的好处,这回终于有模型能够答对了。
国内还有几只龙和虎呢,也一起测下。
首先,是跃问的Step-R-mini模型。

快速回答:不能。
然后,是百小应的深度思考preview,同样不能。

其次,是讯飞星火的x1推理模型。

卧槽,没想到,这里还藏着一个更爱思考的模型呢。想了足足有99秒,答案还是「不能」。
天工Skywork 01推理模型,不能。

看到这里,可能有人会问:哎,那个呢?
那个?哪个?我知道,你想问的是Qwen吧。
对,Qwen的QwQ推理模型。我们来测一下。

直接答对:二维空间,无法通过;三维空间,可以通过。
我们来看看,QwQ是如何思考的。

不错,一开始就想到了三维空间的问题。
然后,提出了这种假设。

再进行详细的计算和推演。

最后,得出答案:能通过。
对了,特别提一下,这里测试用的是千问国际版,而非国内的通义。
体验地址:https://chat.qwen.ai/
以上,就是我们对这道题的有趣测试,一共测了国内外12款推理模型,只有Grok3和QwQ答对,其他的推理模型全部答错。
有的模型可能想了很多,但依然没能跳出思维误区;有的接近了,但又给自己绕了回去;有的,干脆就是模型做题家,至于思考是什么?不知道;还有的,干脆就是完全糊弄你,说的就是你,Chat-GPT。
对于本次测试,你有什么想说的?欢迎评论区留言。
(文:沃垠AI)