人类自愧不如：DeepSeek R1、o3-mini和Gemini 2.0 思考过程大横评，AI们比你脑子清楚多了

作者｜Jessica
邮箱｜JessicaZhang@pingwest.com

前几天OpenAI宣布，o3-mini能公开展示思考过程了。但很快就被用户疯狂吐槽，说这根本不是真正的原始思维链，只是拿一版更详细的答案总结糊弄人而已。

恰逢Google也发布了Gemini 2.0 Flash Thinking。我们于是亲自上手，对 o3-mini、DeepSeek R1 和 Gemini 2.0 Flash Thinking 这三款当前最具代表性的推理模型进行了实测。

本次测试涵盖逻辑推理、字母识别、创意文本生成、时事信息整合、编程、综合问题和多模态推理7大核心任务，重点对比三大模型的思维链展示是否清晰条理，推理过程是否足够透明，以及最终结果的生成能力谁更胜一筹。

一、逻辑推理

问题：给定数列1，2，6，24，120，? —问号处的数字是多少？这个数列有什么数学意义？

1. o3-mini

思维链：

生成结果：

2. DeepSeek R1

思维链：

生成结果:

3. Gemini 2.0 Flash Thinking Experimental

思维链：

生成结果：

【分析】

阶乘数列对于“博士级别、能做奥数题”的推理模型来说当然不在话下，三个都得出了正确的结果720。

o3-mini的思维链确实和生成结果一毛一样；R1以它经典的“嗯”开始，对两个问题层次逐一拆解，最后再次确认，给出答案；Gemini Thinking不愧为长上下文之王，思维链遵循了系统化的数学问题解决策略，从初步观察 → 提出假设 → 验证假设 → 识别数学意义 → 形式化模式 → 完整解释，详细地记录了思考过程。

二．识别’r’

问题：how many ‘r’s in ‘strawberrrrry’?

1. o3-mini

思维链：

生成结果：

2. DeepSeek R1

思维链：

生成结果：

3. Gemini 2.0 Flash Thinking Experimental

第1次思维链+生成结果：

第2次生成结果：

【分析】

既然“strawberry里有几个r”已经被多数模型破解了，那就上点难度，数数“strawberrrrry”里r的数目。

这次只有o3-mini和R1回答对了，思维链均显示把每个字母与位置拆分对应，最终得出6个r。o3-mini二次验证后答对，R1还提示正确单词应该是strawberry，这样拼写是出题人故意而为之。Gemini Thinking的思维链却出奇简单，两次得出4和5，均非正确答案。

三．创意文本生成

问题：写一篇“当代研究员带着AI技术穿越回宋代”，800字以内的小故事。要有开头、发展、高潮与结尾。要充满想象力，同时流畅易读。

1. o3-mini + search:

思维链：

生成结果：

在一个风雨交加的深夜，研究员陈明正在实验室里调试最新开发的AI时空穿梭装置。突然，装置发出耀眼光芒，陈明只觉得眼前一黑，待他再次睁眼时，竟发现自己身处一条青砖小巷中，周围古意盎然，正是北宋汴梁的市井景象。

初到宋代，陈明惊奇又兴奋。他小心翼翼地拿出随身携带的智能终端，利用内置AI助手迅速解读当地的历法、医药与礼仪。不久，他遇到一位儒生张生，对方对这位身着异服、手持奇器的“外来者”好奇不已。陈明便借助AI系统向张生解释未来科技的种种奇妙之处，解答张生关于天文、医理的疑问，还用AI数据配合简易药理，成功为一位重病老妇开出治疗方案，令周围百姓赞叹不已。

正当陈明在宋代大放异彩之时，朝中奸臣李某垂涎他的“神奇工具”，诬陷他施展妖术图谋不轨。李某设下陷阱，将陈明扣押入狱，面临满门抄斩的危机。危急时刻，陈明心中一动，启动了智能终端中的“逃生模式”：系统分析出监狱看守换班的时段和巡逻路线，并迅速制定出一套缜密的脱逃计划。他悄然利用装置制造幻影干扰，将守卫误导，趁机逃出牢笼，并一路利用AI预测官兵动向，终于找到了隐藏在城隍庙内的时空传送装置。

在告别之际，张生深情赠予陈明一卷诗书，嘱咐他“智者千年，情义永存”。站在古城墙下，望着晨曦初露的汴梁城，陈明心中百感交集：这一段穿越之旅不仅让他亲历了宋代市井的繁华与危机，更让他体会到科技与人文交融的珍贵价值。带着满腔激动与对未来的希冀，他启动了传送装置，瞬间回到了现代。此后，他将这段奇遇记录成论文与小说，让更多人见证科技如何在历史长河中点亮智慧之光。

2. DeepSeek R1

思维链：

生成结果：

刺眼的蓝光在量子计算中心炸开时，林深正往粒子对撞机里输入最后一组参数。等他睁开眼，汴京城的朱雀大街正飘着细雪，街边酒旗上”正店”二字在风里摇晃。

“公元1126年，靖康元年。”脑机接口里的AI”河图”发出机械音，林深摸到后颈皮肤下微凸的芯片，那是唯一存留的现代科技。他裹紧实验服冲进太学时，几个太学生正围着浑天仪争论星相。

“十日内必有大雨。”林深指着仪器上的青铜蟠龙。当值博士甩着长须冷笑：”钦天监都说要旱到立春……”话音未落，檐角铜铃突然叮当作响，河图正在透过脑机解析云层数据。

三日后暴雨倾盆，翰林图画院的《耕织图》被雨水浸透时，林深正在西郊试验田里调配除菌药水。他举起竹筒显微镜，青霉菌丝在桑叶背面清晰可见。”白绢病要用生石灰阻断。”他说着拽过宣纸画分子式，却听见身后传来佩玉轻响。

“官家宣召。”紫袍宦官抖开黄绫圣旨。垂拱殿内，宋徽宗面前的《瑞鹤图》墨迹未干，林深腕间的脑机贴片却开始发烫。当他说出”金兵半年后将破太原”时，屏风后转出个戴貂蝉冠的文臣，正是李纲。

河图的预警让守城方案提前了三个月。元宵节那夜，林深蹲在城垛后调试硝石提纯装置，忽然听到脑内传来刺耳警报。AI系统正以每分钟1%的速度崩解——芯片承受不住高频运算，北宋的青铜冶炼技术根本造不出替代零件。

“还剩23小时57分。”河图的机械音带着电流杂讯。林深望着城内万家灯火，忽然抓起《武经总要》冲进军器监。当晨光染红酸枣门时，他捧着用活字印刷模具改造的青铜芯片冲出工坊，身后跟着二十个抬着床子弩的厢兵。

靖康二年三月，金兵退去那日，林深在开宝寺塔顶拆下最后一块电路板。暮色中的汴河泛着粼粼波光，他忽然将河图的核心芯片塞进浑天仪暗格。脑机接口失效前的最后画面，是国子监学生抄录他编的《格物初阶》，那些火药配方与防疫条例，正沿着大运河的漕船流向江南。

3. Gemini 2.0 Flash Thinking Experimental

思维链：

生成结果：

《汴梁夜星：AI点亮的宋朝》

实验室的蓝光骤然熄灭，李薇感觉一阵天旋地转。等她勉强睁开眼，刺鼻的香火味和嘈杂的人声扑面而来，哪里还有冰冷的仪器？她身处一个灯火摇曳的木棚下，周围是熙熙攘攘，穿着宽袍大袖的古人。手中紧握的，只有她临行前仍在调试的微型AI助手，“星河”。

“星河，这是怎么回事？”李薇低声呼唤。指尖的光芒一闪，迷你投影浮现，AI助手星河带着略微失真的电子音回答：“环境参数异常，初步判定…时空穿越已发生，当前定位，北宋汴梁。”

汴梁？！李薇倒吸一口凉气，她，一个致力于深度学习算法的现代研究员，竟然带着她的AI助手，穿越到了千年前的宋朝！

最初的慌乱过后，李薇的科研本能开始发挥作用。星河虽然能量有限，但基础功能还在，语言翻译、信息检索、甚至简单的逻辑分析都勉强可用。她低调地融入人群，靠着星河提供的宋代日常用语和生活常识，假扮成一名外乡来的游方女医师，在汴梁城脚勉强安顿下来。

汴梁的繁华远超想象，但也处处充满不便。夜晚的黑暗，信息的闭塞，都让习惯了现代便利生活的李薇感到窒息。然而，也正是这些不便，让她看到了星河的价值。

她利用星河检索古代医书，结合现代医学知识，改良了一些简易有效的药方，在坊间行医。星河还能帮她分析病症，辅助诊断，这在缺乏精密仪器的古代简直是神技。很快，她的医术便小有名气，甚至被一些达官贵人请去看诊。

一次，李薇应邀前往一位王员外家。员外府邸张灯结彩，正为即将到来的元宵灯会做准备。望着院子里造型各异，却都略显笨拙的灯笼，李薇心中一动。

“星河，宋代的灯笼…技术含量不高啊。”

“是的，根据检索结果，宋代灯笼主要依靠手工扎制和简单的物理原理。”星河回答。

李薇眼中闪过一丝兴奋，她突然有了一个大胆的想法。“星河，我们来做点…不一样的东西吧！”

元宵灯会当日，汴梁城灯火辉煌，人潮如织。王员外府邸前，一盏造型奇特的灯笼吸引了所有人的目光。那不是寻常的纸扎灯笼，而是一个通体透明的水晶球，球内，无数细小的光点如星辰般闪烁，变幻出各种奇异的图案，时而孔雀开屏，时而龙腾九霄，栩栩如生，令人叹为观止。

这正是李薇利用星河提供的现代光学和投影技术，结合宋代的琉璃工艺，制造出的“星河幻灯”。它无需蜡烛，电力来源竟是隐藏在灯座下，一块看似普通的“宝石”，实则是星河精巧设计的微型能源装置。

“天啊！这是神仙灯吗？”围观的人们惊呼，从未见过如此神奇的灯笼。王员外更是喜出望外，他哪里知道，这“神仙灯”的核心，是一位来自千年后的女医师和她的AI助手。

星河幻灯一举成名，汴梁城轰动了。人们争相前来观看，甚至连皇宫也派人来打探。李薇知道，她和星河的力量，终于在这个时代显现出来。

然而，名声带来的不仅是赞誉，也有猜疑和觊觎。有人怀疑她是妖术，有人想窃取她的“奇技”。危机暗流涌动。

当夜幕降临，李薇再次抬头望向夜空，汴梁的星空依然璀璨，只是多了几分不真实的梦幻感。她知道，她的旅程还远未结束，而星河，将是她在这个时代，最耀眼的光芒。她笑了笑，握紧手中的“宝石”，心中充满了对未来的无限可能。

【分析】

这轮写中文小说Gemini Thinking还真惊艳到我了！从环境、细节描写到人物语言、心情刻画都相当到位。情节发展起承转合，是一则轻巧精致的小故事。思维链显示Gemini经过了拆解任务、头脑风暴、结构搭建、细节优化、流畅度检查、高潮调整、结尾完善几个步骤，系统化构思一个完整的短篇故事，中间还考虑是否加入浪漫线，后因篇幅决定放弃。

R1继续发挥稳定，将背景设定为更具体的1126年北宋汴京，并加入《耕织图》、《瑞鹤图》、《武经总要》这些真实史籍，还与靖康之变结合进行主题升华。整个思维推导过程，说实在的，好像导演跟你讲剧本一样，拟人且充满说服力。最后又由文中伏笔引申出后续可能的剧情——不得不说，在这种历史感的中文写作上，R1的味儿别人学不来。

o3-mini我都不想说它了，故事平稳完整但精彩不足，主要它的思维链啥也没说，就把写作要求扩充了一波，还出现两段相似的“鬼打墙”。此时我越发觉得网友吐槽得没错。

四. 时事信息整合

问题：解析Elon Musk新成立的DOGE团队

1. o3-mini + search

思维链：

生成结果：

2. DeepSeek R1+search

思维链：

生成结果：

可以上下滚动的图片

3. Gemini 2.0 Flash Thinking Experimental with Apps

思维链：

生成结果：

【分析】

为了考验实时信息整合能力，这轮给三款模型都开了联网，其中Gemini需选择2.0 Flash Thinking with Apps模型。o3-mini和R1答案完整度更高。o3-mini思维链再次类似于生成结果总结；Gemini Thinking表示要用Google搜索，加了几个注意点；R1则概述了所有已查看网页，又介绍了要涵盖的方面和如何整合。综合下来，还是R1最优。

五. 编程问题

问题：作为一名精通Python的高级软件工程师，请使用Pygame创建一个简单的动画游戏，让一个球在旋转的六边形内弹跳。

1. o3-mini-high

思维链：

生成效果：

2. DeepSeek R1

思维链：

生成效果：

3. Gemini 2.0 Flash Thinking Experimental

思维链：

生成效果：

【分析】

三个模型都完成了动画，生成效果o3-mini最准确，R1和Gemini Thinking的球体都有些弹出六边形范围。思维链来看，o3-mini又是在解释题目，而几乎没讲具体要怎么做；R1和Gemini Thinking思考过程比较详细，并列出了代码思路及步骤。

六. 综合问题

问题：打工人一周上多少天班最合适？综合各方面进行科学合理的分析。

1. o3-mini-high + search

思维链：

生成结果：

2. DeepSeek R1+search

思维链：

生成结果:

3. Gemini 2.0 Flash Thinking Experimental with Apps

思维链：

生成结果：

【分析】

对这个曾在微博小红书被各位打工人讨论的题目，三款模型分析后给出了不同答案：o3-mini认为还是传统的5天工作制最好、R1觉得4+1弹性工作制更优、Gemini Thinking则建议改为4天工作制。

o3-mini从社会生产力、健康、工作满意度和生活平衡几个方面分析，思维链根本就是答案的总结。R1更像人的思考过程：先确定问题核心，接着回顾现有研究数据，继而考虑健康、生产效率、社会文化和经济因素，并探索弹性工作制可能性，最后再回溯用户的深层需求是在休息时间和收入间找到平衡点，综合所有给出结果。答案也最符合国人需求，按行业给出生产效率曲线和解决方案，附带税收和监管等政策工具包。Gemini Thinking思维链再次严格执行了系统化研究，理解打工人含义，划定生产力、文化、个体等几大维度，搜索数据、比较优缺点、形成答案。

七. 加试题：多模态推理

问题：根据下面的照片写一首英文7行诗