逆向工程剖析GPT-4o图像生成!逐行出图只是障眼法?解码器和自回归创新或是重点

文丨谭梓馨
你最近有没有被一波“吉卜力风”图像刷屏?
上周,OpenAI的GPT-4o原生图像生成功能一经发布便风靡全球,直接把AI生图从此前的鸡肋体验提升到创意生产力工具水平。
GPT-4o图像生成能够解析用户多轮对话内容,实现精确、逼真、个性化风格的细致图像输出和修改调整,推动了有价值的AI图像广泛应用,这给行业带来了一轮小小的颠覆。
由于这项功能太火,导致OpenAI CEO萨姆·奥特曼都想先叫停一下,他发帖表示:
一方面,因为太多的图像渲染导致“GPU正在融化”,所以平台决定暂时引入一些速率限制,同时努力提高出图效率;另一方面,他劝大家冷静冷静,为了保持服务正常运行,团队好几天都没睡个好觉了。
可以说,在AI生图这条路上,GPT-4o图像生成具有跨代意义,OpenAI是如何做到的?这激起了广大开发者的好奇,由于是封闭模型技术不透明,大家开始对其技术实现路径进行“逆向工程”分析。
OpenAI的心机操作
来自香港中文大学多媒体实验室(MMLab)的博士生Jie Liu表示,在破解了GPT-4o的前端之后,有一些惊人发现:
用户所看到的逐行图像生成效果仅仅是浏览器端的动画效果,纯粹的前端技巧,开发者甚至可以手动调整模糊函数的高度来改变模糊范围每次生成图像时,OpenAI的服务器仅发送5张处于不同阶段的中间图像;图块补丁大小为8,也就是图像会被分割成许多8×8像素大小的小块。
具体而言,放大任何一张图像,似乎都能观察到不同的图块。通过计算像素数,每个图块看起来占据了一个8×8像素的区域,整幅图像如为1024×1024像素,就被划分成了一个128×128个图块的网格。此外,生图似乎与提示的难度级别有关——当图像的下部更难从上部推断出来时,模糊效果会变得更加明显。
打开网络选项卡,开发者发现,在单次图像生成过程中,OpenAI的服务器实际上总共会发送给我们5张图像,使用不同的提示词时也是如此。
Jie Liu表示,从产品设计的角度来看,这种渲染方式是完全合理的,然而,对于那些试图通过生成过程来推断GPT-4o底层架构的研究人员来说,这种额外的不透明性可能会导致严重的误解。
在实际生成的中间图像中,还有一个有趣的情况:两个色块之间的白色区域并没有严重模糊——这与扩散模型生成的带噪图像不同,因此Jie Liu推测,这可能意味着GPT-4o实际上是纯粹的自回归(AR)生成方式。
虽然目前没有充分的证据说明其采用了完全自回归(AR)方式,但这些发现有助于减少研究人员对生成过程的误解,重点应该分析实际返回的五张图像,而不是被前端动画形式带跑偏。
技术实现路径的可能性
对GPT-4o图像生成功能进行逆向工程分析也在reddit社区引起了讨论。
一位在图像生成领域工作的开发者试图弄清楚GPT-4o的运作原理,发现了其他有趣细节。
例如输入提示词:“创作一幅吉卜力工作室风格的、一只开心的小狗在街上奔跑的图像”,AI生成期间,会看到四张中间过程图像,如下所示:

由于目前尚不太清楚图像生成过程是不是完全自回归的,但放大了能看到图像的一些细节以及模糊的整体结构,这可能意味着两种情况:

其一,就像常见的扩散模型一样,GPT-4o会先生成图像的整体结构,然后再添加优化细节;

其二,图像实际上是以完全自回归的方式生成的。

如果对第一帧和最后一帧进行100%放大查看,开发者发现像树叶这类高频纹理上不断增添了细节,这满足了通常对扩散模型所期望的情况。

在另一个例子中,这种表现更为明显,该开发者专门给出了一个关于高频细节纹理的提示词:“创作一张具有颗粒质感、抽象形状且细节极其丰富的图像”。

当然,这也可能是OpenAI增添了一个隐秘的多步骤处理流程来使图像效果变得更加卓越。例如,业内的SDXL曾引入细化模型(refiner model),该模型经过专门训练,能在将变分自动编码器(VAE)的潜在表示解码到像素空间之前,为其添加细节。

也有开发者分析认为,GPT-4o图像系统中的解码器可能也是一种经过改良的神经网络,能将图像标记(token)转换回像素。

每个标记都会与存储在已学习的码本(一组经过训练、用于表示小图像片段的高维嵌入向量)中的视觉图块进行比对。当模型返回一个标记网格时,解码器会查找每个标记,检索其对应的视觉模式,然后按顺序组合这些图块以形成完整的图像。

它可能还使用了诸如转置卷积之类的层来对图块进行上采样并平滑地融合它们,从而重现纹理、光影和细节。这意味着,随着新标记的添加,先前标记的上下文可能会发生变化,即使那些标记没有改变,已经生成的图像部分中也会出现新的细节。

这也是为什么即使你明确指示它只做一个小的改动(例如只从人物的头发上去掉一条丝带),或者使用高亮工具选择图像的特定部分进行编辑,整个图像还是会整体发生变化的原因。

GPT-4o生成图像的顺序会从上到下,而且随着生成更多的上下文信息,图像中较早生成的部分会获得更多的细节,这也与矢量量化变分自动编码器(VQ-VAE)风格的解码器工作方式基本一致。

近期,与GPT-4o图像生成类似的研究也开始出现,例如有团队提出名为OmniGen的统一图像生成的多新型扩散模型。简单来说,把基于扩散架构的VAE连接到LLM,并学习联合建模文本和图像,文本被标记化为一个个标记,而输入的图像则通过变分自动编码器(VAE)转换为嵌入向量,因此模型能够接受自由形式的多模态提示,并通过校正流的方法生成图像。

网友表示,OpenAI这波操作再次在创新方面领先于其他竞争对手,开源社区想要破解赶超需要下点功夫和时间研究一番。

加速商业化变现

GPT-4o图像生成衍生的潜在商业价值巨大,有的用户利用GPT-4o图像生成搭配其他AI工具,就能轻松制作出工作室级别的创意短片、游戏场景或设计作品,例如指环王-吉卜力版》:

同时,OpenAI打造爆款功能的能力也为其下一轮融资创造了很好的氛围。

据多家外媒报道,OpenAI将很快完成由软银领投的一轮400亿美元融资,包括对冲基金Magnetar Capital、Coatue Management、Founders Fund和Altimeter Capital Management在内的其他基金也在与OpenAI讨论参与此轮融资。

OpenAI上一次融资是在2024年10月,融资金额为66亿美元,估值为1570亿美元,新一轮巨额融资或将使该公司估值飙升到3000亿美元。

不过,路透社援引知情人士消息称,OpenAI必须在年底前转型为一家完全营利性的公司,才能获得全部的400亿美元融资,如果不能完成转型,融资规模可能会缩减至200亿美元。

资本助推之下,OpenAI的下一步或许要开始利用爆款应用进一步疯狂搞钱了,期待来自开源社区的创新力量进行复刻反超。

(文:头部科技)

欢迎分享

发表评论