OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……

知道大模型接下来要卷视觉推理,但没想到这么卷——数学试卷都快要不够用了。
常看推理小说的朋友们都知道:推理也分不同的类型,有专注于逻辑的,也有演绎类的。
既然 GPT 都更新到 o3了,还加入了图片推理,那就都-得-有
逻辑推理,但视觉版
视觉推理并不新鲜,各家都在做。这讲究得不仅仅是从图片中识别元素,还得理解这些元素,并且进一步沿用到与用户的交互、解决工作任务中。
在 o3 之前,Gemini 2.5 在视觉推理上有非常惊人的表现,我们之前也有过测评,速测了一下 o3 的识图能力。
不过凌晨刚发布的时候,o3 可能没睡醒,一个简单的武康大楼认不出来。等到下午再测,「智力」就恢复了。
同时还引用了外链,保证了核查环节。这种识图能力还是很实用的,比如我们做了两个验证码识别。
之前爆火的 Manus 以及同类型的通用型 Agent 产品,可以实现自主通过验证码,现在这是一个应用潜力比较大的能力。
不过,在大模型流行之前,传统搜索引擎也可以完成识图的工作。验证码、识图这种小 case,不太能准确反应 o3 的能力。
于是我们找了真-图形推理题:2021 年国家公务员考试模拟考题。
建议想考公的朋友们,都别直接滑下去,先自己做一做。这样的图形题,考察的是归纳推理的能力,即根据已有的内容推断出下一步。
果然真题就是不一样,o3 的推理超过了六分钟,思维链长达 5 千字,不仅有图片推理,还结合了代码帮助它自己理解。

然后水灵灵地答错了——正确答案是 D,每个图形都有且只有一个封闭区域,故选 D。o3 想了一大堆,最终错选了 C 😊
虽然题目答错了,不过能看出来 o3 的确如所承诺的那样,推理是基于图片素材进行的
这种归纳推理的方式,有什么实用价值吗?——可大了,这下可以用  AI 对狙 AI
这一阵在小红书上流行的「极其平庸的 AI 图」挑战,里面都是晃动的镜头、模糊的焦点,「仿佛从口袋中掏出手机时意外按下快门拍下的」。
实说就上面这些个图,也太难以怀疑了AI 检测 AI 生成文本很常见了,现在也可以让它检测 AI 图片。
o3 说,它懂 GAN 生成对抗网络,它还懂分析 EXIF,它可以来总结归纳 AI 图片的特点。 

有几分道理。可以看到它的推理分析方式是转换成代码语言——在面对纯逻辑推理的时候,几乎都会转换成代码语言。比如下面这个迷宫解题:
在这个迷宫问题中,o3 考虑使用 PIL、numpy 和 skimage 来进行形态学处理,并且编写了 python 来解决。基本上,这等于是在 ChatGPT 的对话窗口里调用不同的工具来辅助。

迷宫对 o3 的挑战非常大,推理时间去到了 2 分钟,效果也比较一般:最后试图生成的路径解法,但是一条无法点击的空连接。
再给其它的迷宫题,o3 同样转化成代码语言来理解。不过,这题它也没有解出来,而且直接弃赛了。
总结一下:在归纳推理方面,o3 通过识别视觉元素、总结图片特点,并且调用外部工具,进行比对识图,这些能力都覆盖了。
准确率和响应都有待提升,尤其是推理时间久、思维链条长,最后还是错误答案的话,换哪个用户都要不开心的。 
基本演绎法,但 AI 版
除了归纳型推理,还有演绎推理。这需要 AI 综合上述所有的能力,并且有一点「发散思维」。
这是相当让人兴奋的部分,我们设计了一套「看工位,猜 MBTI」的挑战活动,交给 o3。
结果相当有意思,虽然到底是 I 人还是 P 人,工位未必能完全体现出来——但这不就是 o3 要挑战的吗?接下来奉上内容部门同事们的桌面,以及 o3 对他们的「判定」。 
P人主编】
主编的 P 属性非常明显,还非常 P 得非常稳定,桌面两年没有变化,这点 o3 都发现了:不太花时间收拾。 
【J人社媒编辑】
社媒编辑的桌面由于过于系统、技术含量过高,触发了 o3 调用代码工具——好可怕的 J 人。
【P人实习生】
实习生的桌面东西不多但信息量不少,尤其是显示屏上贴了一串小纸条,原以为是便利贴,结果全是奶茶标…… 
这触发了 o3 的「逐 part 分解」,每一个细节都放大来看。不过,这样的触发并不是每次都能出现,暂时还没有看到明确的触发方式。
【P人硬件及影像编辑】
工位主人表示 o3 判错了,他明明是 P 人——只是没有反映在工位布置上。只能说 GPT 有时比人更了解人自己。
【J人汽车编辑】
在 prompt 中,我们没有规定 o3 的返送方式,不过每次它都会拉成表格,结合 MBTI 的不同维度,分点给出线索和相对应的推理。
总结一下:演绎推理是 o3 颇为让人兴奋的地方。尤其是思维链打开,可以看到针对不同的案例,调用不同的工具和方式。
明显可以看到「agent」思维,直接应用在了 ChatGPT 当中。这是是本次大版本更新中,除了模型的基础能力之外,最让人兴奋的地方。 
整体上是一个可玩性非常高的版本,尤其是图片推理的潜力,相当值得期待。但是用图片推理来搞赛博开盒什么的,完全不可以啊喂!
我们正在招募伙伴
📮 简历投递邮箱hr@ifanr.com
✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)
更多岗位信息请点击这里🔗

(文:APPSO)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往