马斯克x.ai的Grok 是首个推出基于token的图像生成器吗?

基于Token的图像生成技术终于迎来了突破性进展?

马斯克的x.ai团队再次刷新了AI图像生成的边界,其旗下的Grok模型或成为了首个成功部署基于Token的图像生成器的AI系统。

这是一个什么样的创新突破呢?

Nabil Alouani(@Nabil_Alouani_)给出了专业解读:

目前大多数LLM/助手都是先将图像转换为文本描述,然后再将文本转换为token。而Grok直接将输入图像分解为token。不过,包括Grok在内的大多数图像生成器仍在使用文本到图像的管道。

是的,你没看错,Grok真的能直接处理图像token

Aurora:Grok的秘密武器

Latent Spacer(@LatentSpacer)爆料了这项技术背后的关键:

根据他们的博客:「我们用一个代号为Aurora的新模型增强了Grok的图像生成能力。Aurora是一个自回归专家混合网络,经过训练可以从交错的文本和图像数据中预测下一个token。」

Mark Kretschmann(@mark_k)更是透露:

Grok即将添加图像编辑功能。到时它将能完美复制输入图像,并进行各种修改。

实战表现如何?

Tibor Blaho(@btibor91)进行了实测:

它连OpenAI的logo都能完美重现。

有趣的是,🍓🍓🍓(@iruletheworldmo)做了对比测试:

谷歌的表现也不错。

技术原理大揭秘

Alejandro Rivero(@arivero)分享了一个重要观点:

如果你要为图像训练一个稀疏变换器,你肯定能免费获得一个基于token的图像生成器。同样的原理也适用于声音,这就是为什么你的模型可以生成音乐和模仿任何声音。

但他也指出了一个关键问题:

但不知为何,两年后的今天,似乎所有人都认为图像读取只是CLIP的某种变体,而这种变体在训练中并不使用图像输出。

竞争对手也不甘示弱

歸藏(@op7418)分享了竞品的进展:

Recraft V3也能在图像中生成大段文本。

而manbearbigfoot(@manbearbigfoot)补充道,Redraft甚至可以创建SVG,这对平面设计师来说是个游戏规则改变者

Amin(@a_4amin)对x.ai团队的风格给予了高度评价:

x.ai团队很棒。他们发布功能时都不会大肆宣传。如果这个功能真的有用或有价值,它会在没有任何炒作的情况下自然传播开来。

人工智能的图像处理能力正在以惊人的速度提升,而基于Token的处理方式无疑开启了一个全新的技术方向。

拭目以待,看看这项技术会带来怎样的突破。

(文:AGI Hunt)

欢迎分享

发表评论