马斯克x.ai的Grok 是首个推出基于token的图像生成器吗？

基于Token的图像生成技术终于迎来了突破性进展？

马斯克的x.ai团队再次刷新了AI图像生成的边界，其旗下的Grok模型或成为了首个成功部署基于Token的图像生成器的AI系统。

这是一个什么样的创新突破呢？

Nabil Alouani(@Nabil_Alouani_)给出了专业解读：

目前大多数LLM/助手都是先将图像转换为文本描述，然后再将文本转换为token。而Grok直接将输入图像分解为token。不过，包括Grok在内的大多数图像生成器仍在使用文本到图像的管道。

是的，你没看错，Grok真的能直接处理图像token！

Aurora：Grok的秘密武器

Latent Spacer(@LatentSpacer)爆料了这项技术背后的关键：

根据他们的博客：「我们用一个代号为Aurora的新模型增强了Grok的图像生成能力。Aurora是一个自回归专家混合网络，经过训练可以从交错的文本和图像数据中预测下一个token。」

Mark Kretschmann(@mark_k)更是透露：

Grok即将添加图像编辑功能。到时它将能完美复制输入图像，并进行各种修改。

Tibor Blaho(@btibor91)进行了实测：

它连OpenAI的logo都能完美重现。

有趣的是，🍓🍓🍓(@iruletheworldmo)做了对比测试：

谷歌的表现也不错。

Alejandro Rivero(@arivero)分享了一个重要观点：

如果你要为图像训练一个稀疏变换器，你肯定能免费获得一个基于token的图像生成器。同样的原理也适用于声音，这就是为什么你的模型可以生成音乐和模仿任何声音。

但他也指出了一个关键问题：

但不知为何，两年后的今天，似乎所有人都认为图像读取只是CLIP的某种变体，而这种变体在训练中并不使用图像输出。

歸藏(@op7418)分享了竞品的进展：

Recraft V3也能在图像中生成大段文本。

而manbearbigfoot(@manbearbigfoot)补充道，Redraft甚至可以创建SVG，这对平面设计师来说是个游戏规则改变者。

Amin(@a_4amin)对x.ai团队的风格给予了高度评价：

x.ai团队很棒。他们发布功能时都不会大肆宣传。如果这个功能真的有用或有价值，它会在没有任何炒作的情况下自然传播开来。

人工智能的图像处理能力正在以惊人的速度提升，而基于Token的处理方式无疑开启了一个全新的技术方向。

拭目以待，看看这项技术会带来怎样的突破。

（文：AGI Hunt）