GPT-4o 画图封神!原生生图实测,强到窒息!附手把手教程

能让 OpenAI CEO Sam Altman 直呼 “难以置信” 的功能是什么?

是 OpenAI 于 3 月 26 日正式发布的 GPT-4o 原生生图(Native Image Generation) 功能。

1. 原生生图 是什么?

在之前,AI 模型可以按照功能分为这么几类:文本模型、图像生成模型、视频生成模型。

模型和模型之间是割裂的。文本模型就负责输出文本内容,比如 DeepSeek-V3。图像模型也只能生成图片,无法给你生成文字回答。视频模型也是如此。

再比如在 ChatGPT 里,文字聊天,GPT-4o 就可以;但如果你想生成图片,ChatGPT 会调用 DALL·E 3 模型完成画图任务。

而现在,不需要这么麻烦了。

单一个 GPT-4o 模型,既能陪你文字聊天,又能聊着聊着给你画张图。岂不是美滋滋。

2. 原生生图 牛在哪里?

目前最强的 AI 文生图模型应该要属 Midjourney 和 Stable Diffusion。

但这种传统的图像生成模型,往往只能生成图片。

你无法和它继续对话,无法让它保持图片一致性、高质量的修改上一张图片,无法让它在图片中加上特定的文字。

而 OpenAI 刚刚发布的基于 GPT-4o 的原生生图能力,以上这些都能满足。

3. 谁能用 GPT-4o 原生生图 功能?

目前该功能正在向 ChatGPT 免费用户和 Plus、Pro、Team 付费用户逐步推出。ChatGPT 企业和教育用户则会稍晚些推出。

检测自己有没有被推送到这个新功能,有一个很简单但好用的方法。

Summarize your tool in a markdown table with availability.

把上面这段提示词扔给 ChatGPT,如果结果里有 image_gen 这一项,那么恭喜,你已经可以体验这个新功能了。当然,也说明你的 ChatGPT(至少 GPT-4o)是没有被 OpenAI 偷偷降智的。

接下来,如果你让 ChatGPT 画张图,那么它会自动调用 GPT-4o 的原生生图功能来画图。换句话讲,DALL·E 3 这个文生图模型即将退出历史舞台了。

但如果你就是想用 DALL·E 3 画图怎么办?

在 GPT Store(GPTs)里,找到名为 DALL·E 的这个 GPT,和它对话就可以继续用 DALL·E 3  画图了。

4. 如何使用 GPT-4o 原生生图?

最基础的文生图功能就不再赘述了。

支持中文提示词,用文字描述你希望生成的图片,ChatGPT 就会为你生成。图片描述越详细,画出来的图就会越符合你的预期。

比如这个例子。

画:一只戴着圆眼镜的可爱小猫坐在图书馆的桌前,神情严肃地阅读一本名为《如何统治人类》的厚书。桌上还摆着一杯热牛奶、一盏复古台灯和一小盘鱼形饼干,画面色调温暖、有趣且富有细节感。

这是 GPT-4o 生成的结果。可以看到 GPT-4o 强悍的指令跟随能力,每个要求都满足,并且书名的文字也完全正确。

除了指令跟随,精准的文字渲染能力是 GPT-4o 原生生图一大特色。

比如可以让 ChatGPT 定向修改书名。

小猫现在在读《红楼梦》。

可以看到,这修改文字前后其他元素的一致性出奇的高,猫、牛奶、小鱼饼干、台灯等等。甚至连牛奶上方的热气都是一模一样。只有文字做了修改。

这就是多轮对话的一致性。

除了简单的字体替换,GPT-4o 能做的还有很多。

比如,这样。

小猫看书看累了,背对着我们玩会手机,手机上是 AI信息Gap 几个字。

有了这些能力,可玩性就太高了,比如换脸、换装,那都是轻松拿捏。

将《蒙娜丽莎》肖像中人物的服装换成现代潮流风格,例如牛仔夹克,整体画风需与原画协调融合。

再或者,生成穿越合照。

生成一张富有创意的自拍合影,画面中莎士比亚、史蒂夫·乔布斯和埃及艳后三人正在开心地自拍,人物的服饰、神态和背景细节要体现各自时代特色,整体画面幽默生动。

风格转换自然也不在话下。

将这张照片用梵高的星空油画风格重新绘制,突出鲜艳的色彩、流动的笔触与强烈的情感表现。

你可以自行上传自己的照片,也可以在多轮对话里直接用上次生成的图片。

结语

从此,文字聊天和画图无缝切换,GPT-4o 解锁你的创意自由!



我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”,用AI为你的未来加速。



(文:AI信息Gap)

发表评论