5.5米竹竿能否通过4×3米的门？几乎所有推理模型都答错了

最近，看到一个有意思的AI题：

我拿着一根5.5米长的竹竿，能否通过高4米、宽3米的门？

能不能通过？你想一下。

……

你是不是想出了答案？别急，我们先来看看这些推理模型的回答。

首先登场的，是今晚刚刚全量上线“深度思考”功能的豆包。

斩钉截铁，不能。

然后，是国产推理模型扛把子DeepSeek-R1。

它在想了52秒后，遗憾回答：无法通过。

我猜想，DeepSeek-R1的内心一定经历了很多挣扎，才得出这个答案。我们来看看它的思考过程吧。

既然都已经想到了三维空间，可为什么又把自己给绕回去了呢？

而且，自己也提到了，竹竿可以先从门外移动到门内，将竹竿倾斜……但怎么又去考虑投影、对角线之类乱七八糟的东西。

一通操作猛如虎，结论：不能。

接着，我们来看下刚刚登顶iOS免费应用榜的腾讯元宝。这里，我选用的混元自己的推理模型T1。

T1很擅长做题，但思维陷在二维空间里，答案依旧是：不能。

继续，我们看下Kimi推理模型K1.5的表现（已关掉联网）。

答案很简单：不能。

那智谱GLM-zero呢？

跟T1一样，也是擅长做题，还是回答「不能」。

国内模型不行，那我们试试国外的？

OpenAI你先来，毕竟你是推理模型的鼻祖。

“能通过”哇，终于有模型答对了。等等……

我们再来看下它的回答，“竹竿长5.5米，比门的对角线长，所以竹竿是能够通过这个门。”

WTF？你要不要看看你自己在说什么？这不明显的胡说八道嘛。

那我们来看看马老板的x AI呢，这里我用的是Grok3的推理模式。

Grok3思考了70s，是目前遇到推理时间最长的模型了。不过，长有长的好处，这回终于有模型能够答对了。

国内还有几只龙和虎呢，也一起测下。

首先，是跃问的Step-R-mini模型。

快速回答：不能。

然后，是百小应的深度思考preview，同样不能。

其次，是讯飞星火的x1推理模型。

卧槽，没想到，这里还藏着一个更爱思考的模型呢。想了足足有99秒，答案还是「不能」。

天工Skywork 01推理模型，不能。

看到这里，可能有人会问：哎，那个呢？

那个？哪个？我知道，你想问的是Qwen吧。

对，Qwen的QwQ推理模型。我们来测一下。

直接答对：二维空间，无法通过；三维空间，可以通过。

我们来看看，QwQ是如何思考的。

不错，一开始就想到了三维空间的问题。

然后，提出了这种假设。

再进行详细的计算和推演。

最后，得出答案：能通过。

对了，特别提一下，这里测试用的是千问国际版，而非国内的通义。

体验地址：https://chat.qwen.ai/

以上，就是我们对这道题的有趣测试，一共测了国内外12款推理模型，只有Grok3和QwQ答对，其他的推理模型全部答错。

有的模型可能想了很多，但依然没能跳出思维误区；有的接近了，但又给自己绕了回去；有的，干脆就是模型做题家，至于思考是什么？不知道；还有的，干脆就是完全糊弄你，说的就是你，Chat-GPT。

对于本次测试，你有什么想说的？欢迎评论区留言。

（文：沃垠AI）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复