基于Token的图像生成技术终于迎来了突破性进展?
马斯克的x.ai团队再次刷新了AI图像生成的边界,其旗下的Grok模型或成为了首个成功部署基于Token的图像生成器的AI系统。
这是一个什么样的创新突破呢?
Nabil Alouani(@Nabil_Alouani_)给出了专业解读:
目前大多数LLM/助手都是先将图像转换为文本描述,然后再将文本转换为token。而Grok直接将输入图像分解为token。不过,包括Grok在内的大多数图像生成器仍在使用文本到图像的管道。
是的,你没看错,Grok真的能直接处理图像token!
Aurora:Grok的秘密武器
Latent Spacer(@LatentSpacer)爆料了这项技术背后的关键:
根据他们的博客:「我们用一个代号为Aurora的新模型增强了Grok的图像生成能力。Aurora是一个自回归专家混合网络,经过训练可以从交错的文本和图像数据中预测下一个token。」
Mark Kretschmann(@mark_k)更是透露:
Grok即将添加图像编辑功能。到时它将能完美复制输入图像,并进行各种修改。
实战表现如何?
Tibor Blaho(@btibor91)进行了实测:
它连OpenAI的logo都能完美重现。
有趣的是,🍓🍓🍓(@iruletheworldmo)做了对比测试:
谷歌的表现也不错。
技术原理大揭秘
Alejandro Rivero(@arivero)分享了一个重要观点:
如果你要为图像训练一个稀疏变换器,你肯定能免费获得一个基于token的图像生成器。同样的原理也适用于声音,这就是为什么你的模型可以生成音乐和模仿任何声音。
但他也指出了一个关键问题:
但不知为何,两年后的今天,似乎所有人都认为图像读取只是CLIP的某种变体,而这种变体在训练中并不使用图像输出。
竞争对手也不甘示弱
歸藏(@op7418)分享了竞品的进展:
Recraft V3也能在图像中生成大段文本。
而manbearbigfoot(@manbearbigfoot)补充道,Redraft甚至可以创建SVG,这对平面设计师来说是个游戏规则改变者。
Amin(@a_4amin)对x.ai团队的风格给予了高度评价:
x.ai团队很棒。他们发布功能时都不会大肆宣传。如果这个功能真的有用或有价值,它会在没有任何炒作的情况下自然传播开来。
人工智能的图像处理能力正在以惊人的速度提升,而基于Token的处理方式无疑开启了一个全新的技术方向。
拭目以待,看看这项技术会带来怎样的突破。
(文:AGI Hunt)