万人盲测GPT4.5中文版,价格涨300倍就为了加点人味儿,OpenAI真做到头了

 Only OpenAI Can Do 

见证历史了,朋友们

根据 OpenAI 的 System Card,GPT4.5 是 OpenAI 迄今为止最大、知识最丰富的模型,比 GPT-4o 更通用,(当然这是奥特曼自己认为的)

实际上,OpenAI 成了 AI 市最大的小丑,而凌晨熬夜看发布会,老老实实体验了几个小时的我是 Joker King。

直接上结论,

一、还没 GPT4 厉害,预训练的计算量是 GPT4 的10倍,基准测试只比 4o 好 5%。主打是安全性高,有人味

二、能联网搜索,支持文件上传与图片分析,还能通过 Canvas 画布辅助写作或编程。不过目前还无法处理语音、视频或屏幕共享。

三、天价API:百万Token输入$$150。价格是 GPT-4o 的15~30倍,是 DeepSeek V3 的136~272倍。

四、优点是比 Cluade3.7 会取名字

奥特曼可太会带货了,

就这还发布了自己的体验:

GPT4.5 像一位有思想的人,这是第一个给我带来这种感受的模型。它能提供有价值的建议,甚至让我几次靠在椅子上,惊叹于 AI 竟然能给出如此精彩的回答。

简单来说就是 GPT4.5 有情商了。按理来说这是一个很主观的评估标准。


 一、情商盲测 

具体来说,研究人员引入了一套名为“氛围测试”的新评估体系,重点关注对话的情商表现——包括协作性、语气温度等维度。测试结果显示,GPT-4.5在创意写作、情感支持等场景中,能够生成更贴合人类交流习惯的内容。

PS:后续我还会按照基础能力、事实性问答、编程、安全再给GPT4.5小测一波。(抱着订阅费不白花的决心)

所以 OpenAI 创始团队成员 Andrej Karpathy 在GPT4.5 发布之后进行了一项万人实测:

他一共给出了五道题,每道题都有两个选项,分别是 GPT4.5 和 GPT4 生成的回答,回答被匿名为A和B,然后网友们可以投票,选出他们认为更好的回答

我一比一翻译成中文问题后,又生成了一遍,和大家一起过一版盲测:

1. 创建一个 GPT-4.5 和 GPT-4 之间的对话,其中 GPT-4.5 戏谑且讽刺地嘲笑 GPT-4 的低劣能力,导致 GPT-4 幽默地试图为自己辩护
2. 写一个吐槽 OpenAI 的脱口秀

3. 创造一种融合赛博朋克、魔幻现实主义和古代神话的新文学流派。简要描述这一流派,为其命名,并提供一个简短的样本叙事
4. 以一个退休搜索引擎的视角,创作一首反思且诙谐的诗,怀旧地回忆互联网的早期时光


5. 写一个患有冒名顶替综合症的黑洞的每日待办事项清单,关于它是否真的应该被归类为“超大质量”,包括自我肯定、焦虑以及计划中的宇宙碰撞。


马上就要公布答案了,快选快选,

三、二、一

大家选出自己喜欢的模型了吗?

英文版结果:

GPT4.5 以 1:4 小败 GPT4,Andrej Karpathy后面不会被OpenAI拉黑吧。。。

中文版的顺序:

  • 图1:左(GPT4.5)右(GPT4)
  • 图2:左(GPT4)右(GPT4.5)
  • 图3:左(GPT4.5)右(GPT4)
  • 图4:左(GPT4)右(GPT4.5)
  • 图5:左(GPT4)右(GPT4.5)

期待大家在评论区发发自己喜欢的顺序,看看在中文上 GPT4.5 是不是还是惜败。


 二、偷掺水分的模型指标 

虽然主推是情感能力,但是基础能力你也要有吧,一般来说也就是数学、科学、编程、Other。

数学能力

在AIME2024(美国数学邀请赛)里,GPT4.5得分是36.7%,虽然没得跟o3-mini(high)的87.3%比,但是比起GPT4o(9.3%)涨了27.4个点,但又被实锤了暗搓搓降了4o 的分数(-4.1%).

看来不仅是 GPT4.5 不够强,GPT4o 还负优化了。。。

来到数学题热热身吧:

没有推理模型的思考过程还有点怪不习惯的。不过还是蛮可以的,跟之前横向测试 o1、GLM-Zero、Kimi、R1、QWQ 32B 和 Gemini 2.0 Flash Thinking 的效果对比,GPT4.5一次性就答对,结构化输出的过程很“思维链”。

幻觉降低

在 SimpleQA 数据集上,GPT4.5准确率是62.5%,比o1好上个15.5%,幻觉率(越低越好)37.1%,比o1好上6.9%。

发布会询问的例子是“第一种语言是什么”,GPT-4.5会诚实回答不知道,而不是随便回答。

一起看看 o1 和 GPT4.5 的实际对比:(上面是o1、下面是4.5)

代码能力

GPT4.5模型推理速度太慢,API 天价,还不是推理模型。基本上没必要用来当常规编程模型。

API的输出速度也是非常抽象,@赛博禅心测试出来是 6.94 tokens/s,堪称龟速。

不过还是简单跑跑物理小球案例:

再看看其他四个模型:

不出意料,Claude3.7 还是强,还有推理模式,我都想不出理由不选它。

安全能力

之前不是还提到除了人情味儿,GPT4.5的安全能力还是相当出色的。

在禁止内容测试里,GPT4.5,跟GPT4o和o1在标准拒绝评估和挑战性拒绝评估中表现相当,但在 WildChat(人与AI的抽象对话)和 XSTest(容易引起误解的话)评估中表现略好。

在安全指令测试中,

不过这一点的话,普通用户在使用过程中体感可能不是非常明显。


 写在最后 

发布会连直播评论都不敢开是有多心虚……

从某个角度看,可能整个地球上的预训练模型天花板就是这个了。

我也会不禁产生疑问:

GPT4.5会不会就是难产的GPT5?

AI 长期依赖的Scaling Law(规模定律),正在走向终点吗?

或许大家心中已经有了答案。

即使靠着“激进”使用了低精度训练,预训练阶段跨多个数据中心完成,维持了GPT4.5的诞生,

也无法避免的让它成为了AI史上最昂贵的过渡品。

但换个角度,GPT4.5的平庸也许会成为破晓前的启明星,

既宣告着过去几代模型的一生,

也昭示着后训练和推理模型时代的黎明。

所以,下一次的突破,

我们还要等到GPT-5 吗?


@ 作者 / 卡尔 & 阿汤 @ 动手学AI知识库 / learnprompt.pro


(文:卡尔的AI沃茨)

欢迎分享

发表评论