邮箱|JessicaZhang@pingwest.com
前几天OpenAI宣布,o3-mini能公开展示思考过程了。但很快就被用户疯狂吐槽,说这根本不是真正的原始思维链,只是拿一版更详细的答案总结糊弄人而已。

本次测试涵盖逻辑推理、字母识别、创意文本生成、时事信息整合、编程、综合问题和多模态推理7大核心任务,重点对比三大模型的思维链展示是否清晰条理,推理过程是否足够透明,以及最终结果的生成能力谁更胜一筹。
一、 逻辑推理
问题:给定数列1,2,6,24,120,? —问号处的数字是多少?这个数列有什么数学意义?
1. o3-mini
思维链:


思维链:


思维链:


阶乘数列对于“博士级别、能做奥数题”的推理模型来说当然不在话下,三个都得出了正确的结果720。
o3-mini的思维链确实和生成结果一毛一样;R1以它经典的“嗯”开始,对两个问题层次逐一拆解,最后再次确认,给出答案;Gemini Thinking不愧为长上下文之王,思维链遵循了系统化的数学问题解决策略,从初步观察 → 提出假设 → 验证假设 → 识别数学意义 → 形式化模式 → 完整解释,详细地记录了思考过程。
二. 识别’r’
问题:how many ‘r’s in ‘strawberrrrry’?
1. o3-mini
思维链:


思维链:
生成结果:

3. Gemini 2.0 Flash Thinking Experimental
第1次思维链+生成结果:


既然“strawberry里有几个r”已经被多数模型破解了,那就上点难度,数数“strawberrrrry”里r的数目。
这次只有o3-mini和R1回答对了,思维链均显示把每个字母与位置拆分对应,最终得出6个r。o3-mini二次验证后答对,R1还提示正确单词应该是strawberry,这样拼写是出题人故意而为之。Gemini Thinking的思维链却出奇简单,两次得出4和5,均非正确答案。
三. 创意文本生成
问题:写一篇“当代研究员带着AI技术穿越回宋代”,800字以内的小故事。要有开头、发展、高潮与结尾。要充满想象力,同时流畅易读。
1. o3-mini + search:
思维链:

在一个风雨交加的深夜,研究员陈明正在实验室里调试最新开发的AI时空穿梭装置。突然,装置发出耀眼光芒,陈明只觉得眼前一黑,待他再次睁眼时,竟发现自己身处一条青砖小巷中,周围古意盎然,正是北宋汴梁的市井景象。
初到宋代,陈明惊奇又兴奋。他小心翼翼地拿出随身携带的智能终端,利用内置AI助手迅速解读当地的历法、医药与礼仪。不久,他遇到一位儒生张生,对方对这位身着异服、手持奇器的“外来者”好奇不已。陈明便借助AI系统向张生解释未来科技的种种奇妙之处,解答张生关于天文、医理的疑问,还用AI数据配合简易药理,成功为一位重病老妇开出治疗方案,令周围百姓赞叹不已。
正当陈明在宋代大放异彩之时,朝中奸臣李某垂涎他的“神奇工具”,诬陷他施展妖术图谋不轨。李某设下陷阱,将陈明扣押入狱,面临满门抄斩的危机。危急时刻,陈明心中一动,启动了智能终端中的“逃生模式”:系统分析出监狱看守换班的时段和巡逻路线,并迅速制定出一套缜密的脱逃计划。他悄然利用装置制造幻影干扰,将守卫误导,趁机逃出牢笼,并一路利用AI预测官兵动向,终于找到了隐藏在城隍庙内的时空传送装置。
在告别之际,张生深情赠予陈明一卷诗书,嘱咐他“智者千年,情义永存”。站在古城墙下,望着晨曦初露的汴梁城,陈明心中百感交集:这一段穿越之旅不仅让他亲历了宋代市井的繁华与危机,更让他体会到科技与人文交融的珍贵价值。带着满腔激动与对未来的希冀,他启动了传送装置,瞬间回到了现代。此后,他将这段奇遇记录成论文与小说,让更多人见证科技如何在历史长河中点亮智慧之光。
2. DeepSeek R1
思维链:
生成结果:

思维链:

【分析】
这轮写中文小说Gemini Thinking还真惊艳到我了!从环境、细节描写到人物语言、心情刻画都相当到位。情节发展起承转合,是一则轻巧精致的小故事。思维链显示Gemini经过了拆解任务、头脑风暴、结构搭建、细节优化、流畅度检查、高潮调整、结尾完善几个步骤,系统化构思一个完整的短篇故事,中间还考虑是否加入浪漫线,后因篇幅决定放弃。
R1继续发挥稳定,将背景设定为更具体的1126年北宋汴京,并加入《耕织图》、《瑞鹤图》、《武经总要》这些真实史籍,还与靖康之变结合进行主题升华。整个思维推导过程,说实在的,好像导演跟你讲剧本一样,拟人且充满说服力。最后又由文中伏笔引申出后续可能的剧情——不得不说,在这种历史感的中文写作上,R1的味儿别人学不来。
o3-mini我都不想说它了,故事平稳完整但精彩不足,主要它的思维链啥也没说,就把写作要求扩充了一波,还出现两段相似的“鬼打墙”。此时我越发觉得网友吐槽得没错。
四. 时事信息整合
问题:解析Elon Musk新成立的DOGE团队
1. o3-mini + search
思维链:

2. DeepSeek R1+search
思维链:

可以上下滚动的图片
3. Gemini 2.0 Flash Thinking Experimental with Apps
思维链:

【分析】
为了考验实时信息整合能力,这轮给三款模型都开了联网,其中Gemini需选择2.0 Flash Thinking with Apps模型。o3-mini和R1答案完整度更高。o3-mini思维链再次类似于生成结果总结;Gemini Thinking表示要用Google搜索,加了几个注意点;R1则概述了所有已查看网页,又介绍了要涵盖的方面和如何整合。综合下来,还是R1最优。
五. 编程问题
问题:作为一名精通Python的高级软件工程师,请使用Pygame创建一个简单的动画游戏,让一个球在旋转的六边形内弹跳。
1. o3-mini-high
思维链:


思维链:


思维链:
生成效果:

三个模型都完成了动画,生成效果o3-mini最准确,R1和Gemini Thinking的球体都有些弹出六边形范围。思维链来看,o3-mini又是在解释题目,而几乎没讲具体要怎么做;R1和Gemini Thinking思考过程比较详细,并列出了代码思路及步骤。
六. 综合问题
问题:打工人一周上多少天班最合适?综合各方面进行科学合理的分析。
1. o3-mini-high + search
思维链:

2. DeepSeek R1+search
思维链:

3. Gemini 2.0 Flash Thinking Experimental with Apps
思维链:

【分析】
对这个曾在微博小红书被各位打工人讨论的题目,三款模型分析后给出了不同答案:o3-mini认为还是传统的5天工作制最好、R1觉得4+1弹性工作制更优、Gemini Thinking则建议改为4天工作制。
o3-mini从社会生产力、健康、工作满意度和生活平衡几个方面分析,思维链根本就是答案的总结。R1更像人的思考过程:先确定问题核心,接着回顾现有研究数据,继而考虑健康、生产效率、社会文化和经济因素,并探索弹性工作制可能性,最后再回溯用户的深层需求是在休息时间和收入间找到平衡点,综合所有给出结果。答案也最符合国人需求,按行业给出生产效率曲线和解决方案,附带税收和监管等政策工具包。Gemini Thinking思维链再次严格执行了系统化研究,理解打工人含义,划定生产力、文化、个体等几大维度,搜索数据、比较优缺点、形成答案。
七. 加试题:多模态推理
问题:根据下面的照片写一首英文7行诗

思维链:



思维链:


最后,对有多模态推理能力的R1和Gemini Thinking来个加试题:传图作诗。
结果见仁见智,但各自有亮点:R1想象力更丰富,有种深刻与厚重感,中文版还略带周董歌词风;Gemini Thinking作品清秀简单,但准确识别出图片公交车上的“Dundas West”地名,搜索了一下真在多伦多。说实话这个连我自己都没注意到,可见其多模态理解能力确实很强。
总结
整体评测下来,三款推理模型基本都能输出高质量答案,联网检索能力也过关。但在思维链(CoT)的呈现方式上,各有明显区别。
DeepSeek R1的推理过程最接近人类思维方式,能够在推理过程中不断查漏补缺,逻辑流畅,展现出明显的“人味儿”。其输出往往更加完整深入,信息覆盖面也更广。
Gemini 2.0 Flash Thinking 则更像一位严谨的科研助手,按照系统化的分析步骤进行推理,条理清晰,事无巨细,因此思维链往往较长,略为机械化。
o3-mini的思维链确实如社区所说,更像对问题和答案的重复总结,而非完整展示推理过程,透明度不高。对此奥特曼也变相承认,称这是为了“让CoT更易读,但会尽量保持对原始内容的忠实呈现。”
目前这三款模型都是免费开放,好奇的同学们可以去亲自试试。话说,Anthropic的第一款推理模型什么时候出来呢?

点个“爱心”,再走吧
(文:硅星人Pro)