被玩疯了! GPT-4o图像生成神图与Bug合辑

作者｜沐风

来源｜AI先锋官

就在谷歌宣布Gemini 2.5 Pro推出的当天，OpenAI紧随其后，在GPT-4o中推出了图片生成的新功能。

2024年5月，OpenAI正式推出GPT-4o，作为一个原生多模态模型，现在它能够直接从文本提示生成精确、逼真的图像。

据OpenAI官方博客，GPT–4o图像生成在准确渲染文本、精确遵循提示以及利用4o的固有知识库和聊天上下文方面表现出色，包括转换上传的图像或将其作为视觉灵感。这些能力使得创建图像更容易也更准确。

GPT-4o还支持多轮生成，用户可以通过自然对话来优化图像。

并且，由于GPT-4o是在聊天上下文中构建图像和文本，所以整个过程它可以完美的保持角色的一致性。

例如，当你设计一个视频游戏角色，在后续进行任何优化和试验时，该角色的外观可以在多个迭代中可以保持连贯。

我们先来看看OpenAI官方展示的案例。

下方这张图片则为通过对话进一步的修改结果：

再比如给下面这只猫戴一顶侦探帽和单片眼镜。

你就会得到这张图片：

那再将其更新为横向图像16：9比例，在UI中添加更多法术，并取消缩放视觉对象，以便我们以第三人称视角看到猫走过蒸汽朋克曼哈顿，从而产生美丽的对比和照明，就像在最好的3A游戏中一样，具有冷色调。

以前，在AI生成的图片中，文字往往会出现崩坏、乱码等问题，现在GPT-4o在生成文字能力上实现了跃升，无论是餐厅菜单、邀请函、科学实验示意图还是品牌宣传海报等，它都能搞定。

对此，让它制作一个漫画那也是手到擒来。

并且，GPT-4o的指令遵循能力也非常强，用户可以更精确的控制生成图像的内容，它还可以处理包含10-20个不同物体的场景，例如：

GPT-4o还可以直接从大模型中获取知识，从而生成与现实世界知识相符的图像。

例如使用代码生成图像：

抹茶的制作过程：

鸡尾酒配方：

当然，也可以直接上传图片给GPT-4o，它可以分析和学习用户上传的图像，精准生成用户想要的图片，如：

不过，GPT-4o也存在一些问题，如：

GPT-4o 偶尔会裁剪较长的图像，例如海报，尤其是在图片底部。

与文本模型一样，GPT-4o在图像生成时也有可能产生幻觉，尤其是在低上下文提示中。

在处理非拉丁语言时，字符也可能出现不够准确或产生幻觉等情况，尤其是在复杂性更高的情况下。

文本如果过于密集也不行。

并且，在生成依赖于其知识库的图像时，它可能难以一次准确呈现10-20个不同的概念，例如完整的元素周期表。

而且，在对图像特定部分（例如拼写错误）提出修改的请求时，可能会出bug，并且还可能以修改图像的其他部分或引入更多错误。

值得一提的是，从25日起，该功能向所有免费和付费用户推出，替换 DaLLE 作为默认图像生成器，并将在未来几周内向开发者开放API调用。

但免费版的每日图片生成数量仍然有限制（此前DALL-E为每天3张，GPT-4o具体数字暂未公布，但预计相似）。

另外，GPT-4o生成图片的速度略慢于之前的DALL-E 3。对此OpenAI表示，“这点延迟完全值得，因为图片质量和知识整合的提升远超等待几秒带来的不便。”

并且，就在今天凌晨，OpenAI在X上宣布GPT-4o再次迎来升级。

•更擅长理解并执行详细的指令，尤其是同时包含多个请求的提示。

•在处理复杂的技术问题和编程任务时表现更佳。

•直觉和创造力进一步提升。

•更少使用表情符号。

并且，升级后的GPT-4o现已对所有付费用户开放，免费用户将在未来几周内陆续体验到。

目前，已经有许多网友在X上发布了自己生成的图片，就让我们一起来看看吧。

有意思的是，吉卜力风在X上一夜爆火，网友纷纷开始用GPT-4o生成吉卜力工作室风格的图片。

感兴趣的小伙伴赶快去试试吧！

（文：AI先锋官）