还记得 3 月底在 ChatGPT 上线的 GPT-4o
原生生图模型吗?
这个模型一经发布迅速爆红,仅一周时间就有超过 1.3 亿用户生成了 7 亿张图片。
几小时前,OpenAI 正式推出了该模型的 API 版本:gpt-image-1
。

不同于此前 DALL·E
系列的单点能力,这次的 gpt-image-1
是一个原生多模态模型,支持从文字生成图片(generations)、对已有图片进行编辑(edits)、以及基于已有图像生成变体(variations)。
目前,该功能已可通过 Image API 直接调用。
01|新 API 能干什么?

-
生成图像:根据文本提示词直接生图,支持设置尺寸(1024×1024 / 1536×1024 / 1024×1536)、背景(透明与否)、输出格式(PNG / JPEG / WebP)等。 -
图像编辑:支持上传图像及遮罩(mask),结合提示词描述进行局部修改。 -
图像变体:支持 DALL·E 2
模型下,对已有图像生成风格一致的变体。 -
输出控制:支持控制图像质量(low / medium / high)。
02|GPT-4o 相比 DALL·E 的主要提升

-
更强的文本理解能力,对复杂提示词的反应更加准确; -
图文混合更自然,文字渲染明显改进,适合生成带字设计图; -
多模态连续理解能力(比如连续生成、按上下文做迭代)首次可用于图像任务; -
整体生成结果更稳、更结构化,适合落地使用场景,如 UI 自动图、商品图等。
03|gpt-image-1 API 定价

gpt-image-1
计费仍基于 token 计算。
-
文本输入:5 美元 / 百万 tokens -
图像输入:10 美元 / 百万 tokens -
图像输出:40 美元 / 百万 tokens
以 1024×1024 尺寸的图片为例,价格区间大致估算如下。
|
|
|
---|---|---|
|
|
|
|
|
|
|
|
|
最高质量的图像生成较贵,每张约 0.2 美元。
不过总体来说,这个定价还是比较合理的。如果真的需求量很大,还是建议开通 ChatGPT Plus 吧。
04|落地场景盘点
别以为这个 API 只是做个图那么简单,它已经在不少头部公司的产品线里实打实地跑起来了。
-
Photoroom:直接帮电商卖家把“手机拍的商品图”,一键变身影棚级、生活化、带模特的商品照片。

-
Wix:通过自家的 AI 平台 Wixel,让用户用一句话就能生成专业级网页视觉素材,连镜头角度、构图风格都能调。

-
HeyGen:增强虚拟头像创建体验,比如让你更自由地“捏脸”、换发型、加配饰,效果比之前自然不少。

-
Canva、Figma:在 UI 设计、平面创作领域已经深度集成,用来做快速草图生成、图像补全,甚至是内容本地化。

结语
过去我们常说“AI 会取代什么岗位”,现在更多像是“AI 来协作”。
从设计师到电商运营,从广告文案到内容创作,gpt-image-1
正在成为一个新的创作助手。
我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。
相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。
欢迎关注“AI信息Gap”,用AI为你的未来加速。
(文:AI信息Gap)