GPT4.5正式发布,效果不及o3-mini,价格是DeepSeek三百倍

作者子川

来源AI先锋官

就在刚刚,OpenAI在发布会上推出号称最好和最大的聊天模型GPT 4.5!
划重点:聊天模型!
先说结论:从晒出的榜单来看,GPT4.5的能力不及o3-mini-high,连奥特曼都在发布会结束后发推:GPT4.5不是一个推理模型,所以它并不会压垮基准测试。
在基准测试结果中,GPT4.5的表现优于GPT-4o,然而却未能超越o3-mini。
特别是在AIME24 (math)测试中,GPT4.5取得了36.7%的得分,显著低于o3-mini的87.3%。

在最新Cognition编码实测中,GPT-4.5的能力虽不及Claude 3.7。

GPT-4.5的核心优势在于其强大的无监督学习能力,GPT-4.5通过大规模的计算、数据以及架构和优化创新,极大地提升了这一能力。

注:无监督学习是一种让模型通过大量数据自主学习和理解世界的方式
这意味着它能够更广泛地获取知识,更深入地理解世界,从而在输出上提供更可靠、更准确的信息。
在测试中,GPT-4.5在SimpleQA(一个衡量大型语言模型事实性的基准测试)上的准确率达到了62.5%,远高于o3-mini的38.2%和其他模型。
同时,它的幻觉也大幅降低,为37.1%,相比之下,GPT-4o的幻觉率高达61.8%,o3-mini的幻觉率80.3%.
此外,GPT-4.5的情商变高了,它现在能更好地理解用户的意图,还能在对话中展现出更高的“高情商”。
比如:当用户表示“我考试没通过,现在很难过”时,GPT-4.5会以一种更贴心的方式回应,相比之下,GPT-4o的回答则显得很“直男”。
在人类偏好评估中,测试者也是果断的选择GPT‑4.5。
随着模型能力的不断提升,安全性也成为了重要的考量因素。GPT-4.5采用了新的监督技术,结合了传统的监督微调(SFT)和基于人类反馈的强化学习(RLHF)方法,以确保模型的行为符合人类的期望。
目前,GPT-4.5已经正式上线,GPT-4.5开放给200美元一个月的Pro用户,下周逐步开放给20美元一个月的Plus用户。
此外,GPT4.5还支持搜索功能,能够访问最新的信息,并支持文件和图像上传,以及在Canvas上进行写作和代码编辑。
开发者也可以直接在API上调用GPT4.5,支持函数调用、结构化输出、流式传输和系统消息等功能,可以通过图像输入实现视觉能力。
不过价格非常贵。
75美元/百万tokens输入、150美元/百万tokens输出,对比GPT-4o,定价高出去15-30倍。
再来对比一下Deepseek的价格,真的好贵……(BGM:不敢睁开眼,希望是我的幻觉)

OpenAI 早先已透露,计划于今年晚些时候推出 GPT – 5,并将 GPT 系列模型与 “o” 推理系列相融合。

此外,在直播中还透露了一个重要信息:GPT – 4.5 将作为未来推理模型的基础模型。

So,GPT-5会不会是GPT4.5和o3的结合体呢,我们拭目以待!

 

(文:AI先锋官)

欢迎分享

发表评论