OpenAI 年底「百亿补贴」来了,满血 o1 API 开放,成本暴跌,定制升级

事先张扬的 mini 版 DevDay 终于来了。
GPT-4.5 和 DALL·E 4 依旧没有露脸,今天 OpenAI 发布会的焦点主要放在 API 和开发者服务的全新升级上,真·开发者大会。
省流不看版如下:
OpenAI o1 API:支持函数调用、开发者指令、结构化输出和视觉能力。
Realtime API:包括简单的 WebRTC 集成,GPT-4o 音频的价格大幅降低了 60%,同时新增对 GPT-4o mini 的支持,其音频速率仅为原来的十分之一。
偏好微调(Preference Fine-Tuning),这是一种新的模型定制技术,简化了根据用户和开发者偏好进行模型定制的过程。
新的 Go 和 Java SDK,现已进入 beta 阶段。
本次发布会由 OpenAI 技术人员 Sean DuBois、Andrew Peng、Michelle Pokrass 和 Brian Zhang 等人共同主持。
直播活动结束后,OpenAI 也在 Reddit 论坛上举办了 AMA(Ask Me Anything)活动。我们精选一些亮点问答放在文末,建议不要错过。
而在召开发布会前,OpenAI 也上架了 DevDay 2024 的路演视频。

附上传送地址:
https://www.youtube.com/watch?v=auXCQ9-721o&list=PLOXw6I10VTv\_o0ZLpFu2IQyQOho1l-v7y&index=1

在 OpenAI o1 模型发布之后,应广大开发者的呼声,期待已久的 o1 API 正式发布。即日起,OpenAI 向 API 使用等级 5 级的开发者开放访问权限。
据官方介绍,现已正式上线的 o1 具备多项关键功能,可支持实际应用场景如下:
函数调用:无缝连接 o1 与外部数据和 API。
结构化输出:生成可靠地遵循自定义 JSON 模式的响应。
开发者指令:为模型指定指令或上下文,例如定义语气、风格以及其他行为指导。
视觉能力:推理图像,开启更多科学、制造或编程领域的应用,特别是在视觉输入至关重要的场景中。
更低延迟:与 o1-preview 相比,o1 在处理相同请求时,推理 token 使用量平均减少 60%。
在发布会上,OpenAI 演示人员也向我们展示了 o1 API 具体的应用案例。
比如说,借助 o1 API 的视觉能力,它能够检测上传表格中的错误并给出修订建议,还能在获取正确数据后完成所得税计算等复杂任务。
比较值得关注的是其结构化输出功能。
通过预先定义 JSON 架构,模型能够严格按照指定格式输出结果。并且,其还能基于这些结构化数据,在 PDF 界面中精确高亮显示需要修改的内容,以及支持函数调用与结构化输出的协同使用。
至于广受关注的 o1 Pro API,OpenAI 表示正在加紧开发中,有望在近期推出。
本次发布的 o1-2024-12-17 版本是对两周前 ChatGPT 版本的全新后训练优化, 在函数调用(function calling)和结构化输出测试(Structured Outputs testing)中的表现都要明显优于之前的 o1-preview。
目前,OpenAI 正在逐步推出访问权限,同时努力扩大对更多使用等级的访问,并提升速率限制。
文档指路:
https://platform.openai.com/docs/models#o1
为打造更自然、低延迟的对话体验,OpenAI 对 Realtime API 也进行了全面升级。新版本特别适合开发语音助手、实时翻译工具、虚拟辅导员和互动客服系统等应用场景。
演示环节,OpenAI 展示了一个融入 Realtime API 的互动驯鹿玩偶,能够与人进行自然的对话,比如发布会就今年收到的圣诞礼物等话题聊了起来。
更重要的是,Realtime API 能够集成到智能眼镜等可穿戴设备中,或者轻松接入各类摄像头和麦克风系统,为人机交互开启更广阔的可能性。
应开发者需求,Realtime API 此次更新重点包括 WebRTC 直接集成、价格调整以及更精细的响应控制。
WebRTC 能够极大简化跨平台实时语音产品的开发流程。无论是浏览器应用、移动客户端、物联网设备还是服务器间通信,都能实现平滑接入。
据悉,该技术可自动处理音频编码、流媒体传输、降噪和拥塞控制等关键功能,即使在网络条件不稳定的情况下也能保证流畅的用户体验。
WebRTC 集成旨在确保在实际环境中,即使网络质量波动,仍能提供平滑且响应迅速的交互。它负责处理音频编码、流媒体传输、降噪以及拥塞控制等功能。
在定价方面,OpenAI 大幅下调了相关服务费用。
gpt-4o-realtime-preview-2024-12-17 音频 token 价格下调 60%,降至每百万输入 token 40 美元,每百万输出 token 80 美元。
音频输入缓存费用仅需每百万 token 2.50 美元,幅下降 87.5%,怎么有种 OpenAI 年底「百亿补贴」的既视感。
同时推出的 GPT-4o mini 为开发者提供了更具性价比的选择,在保持体验的同时,将音频价格设定为每百万输入 token 10 美元,每百万输出 token 20 美元,文本 token 则分别为 0.60 美元和 2.40 美元。
为进一步提升语音交互体验,Realtime API 还新增了多项实用功能:
后台任务,如内容审核或分类,可以在不干扰用户语音互动的情况下进行。
允许自定义输入上下文,指定哪些对话内容作为模型的输入。例如,可以选择仅对用户最后一句发言进行审核,或在不变更会话状态的前提下,重新利用之前的回应。
控制响应时机,利用服务器端语音活动检测(VAD),但不自动触发回应。例如,可以先收集必要信息(如账户详情),加入模型上下文,然后手动启动语音回复,以提供更多对时机和准确性的控制。
延长最大会话时长,将原本 15 分钟的会话时长增加到 30 分钟。
另外,此次更新还为微调 API 带来了偏好微调(Preference Fine-Tuning)技术。
Preference Fine-Tuning 采用直接偏好优化(DPO)技术,通过比较模型响应来训练 AI 区分用户偏好,在处理涉及语气、风格和创造力等主观因素的任务时尤其有效。
以 Rogo AI 为例,其金融分析师 AI 助手在采用该技术后,准确率从 75% 提升至 80% 以上。偏好微调今天将推出,适用于 gpt-4o-2024-08-06,并将在不久后为 gpt-4o-mini-2024-07-18 提供。
最后,OpenAI 还发布了 Go 和 Java SDK 测试版,与现有的 Python、Node.js 和 .NET 库一起,为开发者提供更全面的开发工具支持。
其中 Go SDK 主要适合构建高并发、可扩展的系统,而 Java SDK 则提供类型化的请求响应对象和 API 请求管理工具,能够带来更流畅的开发体验。
今天更新功能的脉络非常清晰,比如降价为规模化应用扫除成本障碍、简化开发流程,降低技术门槛、提升定制化能力等。抛却商业语境下的服务优化,这些改进都将有望进一步推动 AI 应用开发走向大众化。
附上 AMA 问答
问:既然 o1 现在具备了视觉识别能力(我猜测这将在未来的 API 中提供),我们该如何考虑利用它来处理那些通常需要上下文学习才能应对的场景呢?是否应该通过给模型提供包含约 5 张图片的多示例提示来提高其效果,还是说有其他更推荐的策略?
答:今天,我们推出了具备视觉输入功能的 o1!是的,我们已经观察到,通过少量示例提示来指导模型如何响应新图片是非常有效的。
问:我们是否可以期待即将在 Assistants 中支持 o1 API 呢?
答:我们确实计划在 Assistants 中支持 o1。我们之前一直在等待实现对工具的支持,然后才在 Assistants 中引入o1。现在 o1 的函数调用功能已经启动,因此 o1 将很快集成到 Assistants 中!
问:Assistants API 是否有任何最新消息,特别是关于文件搜索功能的更新(如元数据支持、图像解析等)?同时,确切的文本引用功能似乎也尚未实现。
答:我们正在努力开发所有这些功能。
问:Assistants API 已经处于测试阶段超过一年,并且存在相关的速率限制。作为开发者,我们为什么要继续浪费时间用 OpenAI 进行解决方案的原型设计,尤其是当我们实际上无法发布任何产品时?缺乏明确的路线图和沟通。要么彻底取消这个项目,要么正式发布它。长期处于测试阶段只会产生负面影响。
答:我明白这个项目的进度比预期的要慢,但我们计划在明年对 Assistants API 进行迭代和改进。在此期间,我们致力于确保你在 Assistants API 上开发的应用程序能够稳定高效地运行。

(文:APPSO)

欢迎分享

发表评论