GPT4.5正式发布，效果不及o3-mini，价格是DeepSeek三百倍

作者｜子川

来源｜AI先锋官

就在刚刚，OpenAI在发布会上推出号称最好和最大的聊天模型GPT 4.5！

划重点：聊天模型！

先说结论：从晒出的榜单来看，GPT4.5的能力不及o3-mini-high，连奥特曼都在发布会结束后发推：GPT4.5不是一个推理模型，所以它并不会压垮基准测试。

在基准测试结果中，GPT4.5的表现优于GPT-4o，然而却未能超越o3-mini。

特别是在AIME24 (math)测试中，GPT4.5取得了36.7%的得分，显著低于o3-mini的87.3%。

在最新Cognition编码实测中，GPT-4.5的能力虽不及Claude 3.7。

GPT-4.5的核心优势在于其强大的无监督学习能力，GPT-4.5通过大规模的计算、数据以及架构和优化创新，极大地提升了这一能力。

注：无监督学习是一种让模型通过大量数据自主学习和理解世界的方式

这意味着它能够更广泛地获取知识，更深入地理解世界，从而在输出上提供更可靠、更准确的信息。

在测试中，GPT-4.5在SimpleQA（一个衡量大型语言模型事实性的基准测试）上的准确率达到了62.5%，远高于o3-mini的38.2%和其他模型。

同时，它的幻觉也大幅降低，为37.1%，相比之下，GPT-4o的幻觉率高达61.8%，o3-mini的幻觉率80.3%.

此外，GPT-4.5的情商变高了，它现在能更好地理解用户的意图，还能在对话中展现出更高的“高情商”。

比如：当用户表示“我考试没通过，现在很难过”时，GPT-4.5会以一种更贴心的方式回应，相比之下，GPT-4o的回答则显得很“直男”。

在人类偏好评估中，测试者也是果断的选择GPT‑4.5。

随着模型能力的不断提升，安全性也成为了重要的考量因素。GPT-4.5采用了新的监督技术，结合了传统的监督微调（SFT）和基于人类反馈的强化学习（RLHF）方法，以确保模型的行为符合人类的期望。

目前，GPT-4.5已经正式上线，GPT-4.5开放给200美元一个月的Pro用户，下周逐步开放给20美元一个月的Plus用户。

此外，GPT4.5还支持搜索功能，能够访问最新的信息，并支持文件和图像上传，以及在Canvas上进行写作和代码编辑。

开发者也可以直接在API上调用GPT4.5，支持函数调用、结构化输出、流式传输和系统消息等功能，可以通过图像输入实现视觉能力。

不过价格非常贵。

75美元/百万tokens输入、150美元/百万tokens输出，对比GPT-4o，定价高出去15-30倍。

再来对比一下Deepseek的价格，真的好贵……(BGM:不敢睁开眼，希望是我的幻觉）

OpenAI 早先已透露，计划于今年晚些时候推出 GPT – 5，并将 GPT 系列模型与 “o” 推理系列相融合。

此外，在直播中还透露了一个重要信息：GPT – 4.5 将作为未来推理模型的基础模型。

So，GPT-5会不会是GPT4.5和o3的结合体呢，我们拭目以待！

（文：AI先锋官）