万人盲测GPT4.5中文版，价格涨300倍就为了加点人味儿，OpenAI真做到头了

Only OpenAI Can Do

见证历史了，朋友们

根据 OpenAI 的 System Card，GPT4.5 是 OpenAI 迄今为止最大、知识最丰富的模型，比 GPT-4o 更通用，（当然这是奥特曼自己认为的）

实际上，OpenAI 成了 AI 市最大的小丑，而凌晨熬夜看发布会，老老实实体验了几个小时的我是 Joker King。

直接上结论，

一、还没 GPT4 厉害，预训练的计算量是 GPT4 的10倍，基准测试只比 4o 好 5%。主打是安全性高，有人味

二、能联网搜索，支持文件上传与图片分析，还能通过 Canvas 画布辅助写作或编程。不过目前还无法处理语音、视频或屏幕共享。

三、天价API：百万Token输入$$150。价格是 GPT-4o 的15~30倍，是 DeepSeek V3 的136～272倍。

四、优点是比 Cluade3.7 会取名字

奥特曼可太会带货了，

就这还发布了自己的体验：

GPT4.5 像一位有思想的人，这是第一个给我带来这种感受的模型。它能提供有价值的建议，甚至让我几次靠在椅子上，惊叹于 AI 竟然能给出如此精彩的回答。

简单来说就是 GPT4.5 有情商了。按理来说这是一个很主观的评估标准。

一、情商盲测

具体来说，研究人员引入了一套名为“氛围测试”的新评估体系，重点关注对话的情商表现——包括协作性、语气温度等维度。测试结果显示，GPT-4.5在创意写作、情感支持等场景中，能够生成更贴合人类交流习惯的内容。

PS：后续我还会按照基础能力、事实性问答、编程、安全再给GPT4.5小测一波。（抱着订阅费不白花的决心）

所以 OpenAI 创始团队成员 Andrej Karpathy 在GPT4.5 发布之后进行了一项万人实测：

他一共给出了五道题，每道题都有两个选项，分别是 GPT4.5 和 GPT4 生成的回答，回答被匿名为A和B，然后网友们可以投票，选出他们认为更好的回答

我一比一翻译成中文问题后，又生成了一遍，和大家一起过一版盲测：

1. 创建一个 GPT-4.5 和 GPT-4 之间的对话，其中 GPT-4.5 戏谑且讽刺地嘲笑 GPT-4 的低劣能力，导致 GPT-4 幽默地试图为自己辩护

2. 写一个吐槽 OpenAI 的脱口秀

3. 创造一种融合赛博朋克、魔幻现实主义和古代神话的新文学流派。简要描述这一流派，为其命名，并提供一个简短的样本叙事

4. 以一个退休搜索引擎的视角，创作一首反思且诙谐的诗，怀旧地回忆互联网的早期时光

5. 写一个患有冒名顶替综合症的黑洞的每日待办事项清单，关于它是否真的应该被归类为“超大质量”，包括自我肯定、焦虑以及计划中的宇宙碰撞。

马上就要公布答案了，快选快选，

三、二、一

大家选出自己喜欢的模型了吗？

英文版结果：

GPT4.5 以 1：4 小败 GPT4，Andrej Karpathy后面不会被OpenAI拉黑吧。。。

中文版的顺序：

图1：左（GPT4.5）右（GPT4）
图2：左（GPT4）右（GPT4.5）
图3：左（GPT4.5）右（GPT4）
图4：左（GPT4）右（GPT4.5）
图5：左（GPT4）右（GPT4.5）

期待大家在评论区发发自己喜欢的顺序，看看在中文上 GPT4.5 是不是还是惜败。

二、偷掺水分的模型指标

虽然主推是情感能力，但是基础能力你也要有吧，一般来说也就是数学、科学、编程、Other。

数学能力

在AIME2024（美国数学邀请赛）里，GPT4.5得分是36.7%，虽然没得跟o3-mini（high）的87.3%比，但是比起GPT4o（9.3%）涨了27.4个点，但又被实锤了暗搓搓降了4o 的分数（-4.1%）.

看来不仅是 GPT4.5 不够强，GPT4o 还负优化了。。。

来到数学题热热身吧：

没有推理模型的思考过程还有点怪不习惯的。不过还是蛮可以的，跟之前横向测试 o1、GLM-Zero、Kimi、R1、QWQ 32B 和 Gemini 2.0 Flash Thinking 的效果对比，GPT4.5一次性就答对，结构化输出的过程很“思维链”。

幻觉降低

在 SimpleQA 数据集上，GPT4.5准确率是62.5%，比o1好上个15.5%，幻觉率（越低越好）37.1%，比o1好上6.9%。

发布会询问的例子是“第一种语言是什么”，GPT-4.5会诚实回答不知道，而不是随便回答。

一起看看 o1 和 GPT4.5 的实际对比：（上面是o1、下面是4.5）

代码能力

GPT4.5模型推理速度太慢，API 天价，还不是推理模型。基本上没必要用来当常规编程模型。

API的输出速度也是非常抽象，@赛博禅心测试出来是 6.94 tokens/s，堪称龟速。

不过还是简单跑跑物理小球案例：

再看看其他四个模型：

不出意料，Claude3.7 还是强，还有推理模式，我都想不出理由不选它。

安全能力

之前不是还提到除了人情味儿，GPT4.5的安全能力还是相当出色的。

在禁止内容测试里，GPT4.5，跟GPT4o和o1在标准拒绝评估和挑战性拒绝评估中表现相当，但在 WildChat（人与AI的抽象对话）和 XSTest（容易引起误解的话）评估中表现略好。

在安全指令测试中，

不过这一点的话，普通用户在使用过程中体感可能不是非常明显。

写在最后

发布会连直播评论都不敢开是有多心虚……

从某个角度看，可能整个地球上的预训练模型天花板就是这个了。

我也会不禁产生疑问：

GPT4.5会不会就是难产的GPT5？

AI 长期依赖的Scaling Law（规模定律），正在走向终点吗？

或许大家心中已经有了答案。

即使靠着“激进”使用了低精度训练，预训练阶段跨多个数据中心完成，维持了GPT4.5的诞生，

也无法避免的让它成为了AI史上最昂贵的过渡品。

但换个角度，GPT4.5的平庸也许会成为破晓前的启明星，

既宣告着过去几代模型的一生，

也昭示着后训练和推理模型时代的黎明。

所以，下一次的突破，

我们还要等到GPT-5 吗？

@ 作者 / 卡尔 & 阿汤 @ 动手学AI知识库 / learnprompt.pro

（文：卡尔的AI沃茨）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

数学能力

幻觉降低

代码能力

安全能力

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复