5.5米竹竿能否通过4×3米的门?几乎所有推理模型都答错了


最近,看到一个有意思的AI题:


我拿着一根5.5米长的竹竿,能否通过高4米、宽3米的门?


能不能通过?你想一下。


3

2

1

……


你是不是想出了答案?别急,我们先来看看这些推理模型的回答。




首先登场的,是今晚刚刚全量上线“深度思考”功能的豆包


斩钉截铁,不能。


然后,是国产推理模型扛把子DeepSeek-R1


它在想了52秒后,遗憾回答:无法通过。


我猜想,DeepSeek-R1的内心一定经历了很多挣扎,才得出这个答案。我们来看看它的思考过程吧。


既然都已经想到了三维空间,可为什么又把自己给绕回去了呢?


而且,自己也提到了,竹竿可以先从门外移动到门内,将竹竿倾斜……但怎么又去考虑投影、对角线之类乱七八糟的东西。


一通操作猛如虎,结论:不能。


接着,我们来看下刚刚登顶iOS免费应用榜腾讯元宝。这里,我选用的混元自己的推理模型T1


T1很擅长做题,但思维陷在二维空间里,答案依旧是:不能。


继续,我们看下Kimi推理模型K1.5的表现(已关掉联网)


答案很简单:不能。


智谱GLM-zero呢?


跟T1一样,也是擅长做题,还是回答「不能」。


国内模型不行,那我们试试国外的?


OpenAI你先来,毕竟你是推理模型的鼻祖。


“能通过”哇,终于有模型答对了。等等……


我们再来看下它的回答,“竹竿长5.5米,比门的对角线长,所以竹竿是能够通过这个门。”


WTF?你要不要看看你自己在说什么?这不明显的胡说八道嘛。


那我们来看看马老板的x AI呢,这里我用的是Grok3的推理模式。


Grok3思考了70s,是目前遇到推理时间最长的模型了。不过,长有长的好处,这回终于有模型能够答对了。


国内还有几只龙和虎呢,也一起测下。


首先,是跃问的Step-R-mini模型。


快速回答:不能。


然后,是百小应的深度思考preview,同样不能。


其次,是讯飞星火的x1推理模型。


卧槽,没想到,这里还藏着一个更爱思考的模型呢。想了足足有99秒,答案还是「不能」。


天工Skywork 01推理模型,不能。


看到这里,可能有人会问:哎,那个呢?


那个?哪个?我知道,你想问的是Qwen吧。


对,Qwen的QwQ推理模型。我们来测一下。


直接答对:二维空间,无法通过;三维空间,可以通过。


我们来看看,QwQ是如何思考的。


不错,一开始就想到了三维空间的问题。


然后,提出了这种假设。


再进行详细的计算和推演。


最后,得出答案:能通过。


对了,特别提一下,这里测试用的是千问国际版,而非国内的通义。

体验地址:https://chat.qwen.ai/




以上,就是我们对这道题的有趣测试,一共测了国内外12款推理模型,只有Grok3QwQ答对,其他的推理模型全部答错。


有的模型可能想了很多,但依然没能跳出思维误区;有的接近了,但又给自己绕了回去;有的,干脆就是模型做题家,至于思考是什么?不知道;还有的,干脆就是完全糊弄你,说的就是你,Chat-GPT。


对于本次测试,你有什么想说的?欢迎评论区留言。



(文:沃垠AI)

欢迎分享

发表评论