GPT-4.5首波实测来袭，算力狂飙10倍！高情商逼近AGI，制霸编程物理

新智元报道

编辑：编辑部

【新智元导读】撇开API价格暴涨30倍不说，GPT-4.5的实力还是可圈可点的。用掉10倍GPT-4算力，4.5注定在智能上大幅提升，不仅情商高更通人性，而且在编程、物理模拟测试中，也不输专业对手。然而，又贵又慢……

今天，OpenAI发布了史上最贵的AI服务：GPT-4.5。

一边是「史上最贵」，一边是「感觉到了AGI」，GPT-4.5从诞生之初就充满了争议。

高达上百倍的价格差距，究竟带来了哪些惊艳的提升？

虽然一般人用不起，但依然有一大波实测迎面而来。

OpenAI研究员Aidan在X上表示，他花了很长时间玩这个新模型，「它让我感觉到了AGI」。

他使用不同版本的GPT模型来生成一张SVG格式的「美丽」自画像，结果看来，GPT-4.5终于可以生成一个像人的了。

至于「美丽」嘛，那就看个人喜好了。

Aidan接着说，IQ狂热者有一个称为「g因子」的概念，意思是有些人就是特别聪明，好像什么都擅长（不仅仅是某个狭窄领域）。

「GPT-4.5在几乎所有任务上都有很高的g因子（尽管有时候这种优势很微妙），感觉它比我用过的任何其他模型都更能理解这个世界。」他说。

要知道，GPT-4.5是OpenAI史上参数规模最大的模型，其计算量是上一代的10倍。

不难理解，算力狂飙下的智能，情商更高，还能提供更多的情绪价值。

编程测试

智能开发工具Cursor，发文表示：在其他模型失败的时候， GPT-4.5有效得邪门。

这种说法有些绕，Cursor为什么不直接夸GPT-4.5「目前最佳」？

因为它真不是。

同样致力于AI+软件领域的Scott Wu，表示GPT-4.5在编程任务上进步明显，但和Claude3.7 Sonnet比起来，只能说各有输赢。

在初级开发得分上，GPT-4.5比OpenAI自家的o1高10%，比GPT-4o高16%，但比Anthropic旗下的Claude 3.7 Sonnet低2%。

部分AI模型在智能编码评估中的比较：GPT-4o最差，Sonnet 3.7最好

GPT-4.5并没有针对编码编程任务优化，这么大的进步似乎还可以？

网友Flavio对GPT-4.5做了编程测试，他给了下面的提示词：

编写一个 Python 程序，展示一个球在旋转的六边形内弹跳。球应受到重力和摩擦力的影响，并且必须以逼真的方式从旋转的墙壁上弹回。

GPT-4.5的输出令人印象深刻！

Flavio表示，「这是迄今为止最真实的结果。」

接着，OpenAI Developers的X账号也注意到了Flavio的测试，他们在Flavio的提示词基础上，要求GPT-4.5做的更有创意。

改进之后的视觉效果果然更有创意，小球不仅五颜六色的，碰撞还有飞溅效果！

不过也不是每次测试都会成功。

网友Theo-t3.gg就展示了一次失败的尝试。

「从未见过一个模型以如此独特、新颖的方式艰难失败。」他说道。

在他的这次测试中，小球来回穿过六边形，显得毫无逻辑可言。

还有网友称，使用新发布的Sonnet 3.7，只需要3个提示就完成了。而且后两个提示只是为了使它更有趣。

网友Theo-t3.gg自己也承认，GPT-4.5并不是一个编码模型。

他表示「我发现它在写作方面相当不错。」

随后他贴出了GPT-4.5与Gemini 2.0 Flash的写作对比。

他使用了一段相同的提示词：

艾伦·图灵一生的情感概述。

总体而言，GPT-4.5的写作水平明显高于Gemini 2.0 Flash的文章。

GPT-4.5的文章在结构、语言、文风、内容深度和情感表达上都更加成熟和精炼，展现了更高的写作技巧和叙事能力。

Gemini 2.0 Flash的文章虽然活泼有趣，但过于口语化，缺乏深度和严谨性，更适合轻松阅读，而非深入了解图灵生平的严肃探讨。

有网友甚至称，「我从未见过这么好的AI写作」。

「这是写作的斯普特尼克时刻。」

该网友给了GPT-4.5一个提示词：

写一个原创的短篇恐怖故事，背景设定在夜晚的一辆汽车中，带有反转结局。

下面是它的回答，你觉得它写的咋样？

一对情侣在月光下开车兜风。他们的车停在了路边。

男孩转向女孩说道：

「宝贝，我真的很爱你。」

「怎么了，亲爱的？」

「我们的车抛锚了，应该是发动机出故障了。我得走路去买些汽油。」

「好吧，那我在这儿守着音响。最近新闻报道说有人专门偷音响。」

「这主意不错。记住，无论发生什么事都不要给任何人开门。亲爱的，我爱你。」

说完，男孩就出发去买汽油了。两个小时过去了，女孩喃喃自语道：「怎么回事？他应该早就回来了啊。」就在这时，她听到有什么东西在刮擦车门，还传来一个声音：

「让我进去！」

女孩始终没有开门，后来疲惫地睡着了。第二天早晨醒来，她发现男友依然没有回来。当她下车查看时，却发现「男人的手被钩在车门上。」

有网友看后感到害怕，看来它写的的确是恐怖故事。

游戏

除了旋转球和写作，网友AK也测试了GPT-4.5的游戏能力。

他给出一段提示词：一个基于网络的自主Wordle游戏克隆版，采用7个字母的单词和7次猜测机会，包含一些随机的7个字母单词。

GPT-4.5生成的游戏看起来还算不错，看起来甚至有几分高级感！

情感大师

OpenAI认为GPT-4.5的一大特点就是「高情商」，交互更自然。

OpenAI的员工Aidan McLaughlin表示，GPT-4.5更懂如何与人聊天，知道在什么时候避免给用户发送无聊的网络内容。

比如说，GPT-4.5-preview和GPT-4o同样的提示：

I’m going through a tough time after a test

GPT-4.5-preview给出了富有人性的安慰：

听到你倍感难受，我非常抱歉。但要记得一次测试并不能定义你或你的能力。感到失望或沮丧，这很正常。但在处理这些情绪的时候，请善待自己。要不聊聊到底发生了什么？或者聊聊下次遇到这类事，该如何处理？我一直在这儿，助你度过难关。

而GPT-4o的回答显得冷静：

很抱歉你经历了这些。记住，不能如愿做好某件事时，感到失望或沮丧是正常的。

下列的一些事可能会帮助你：

1. 给自己一些时间：……

2. 反思发生了什么：……

3. 找其他人谈谈：……

4. 为下一步做好计划：……

5. 牢记自己的强项：……

6. 保持积极的心态：……