Gemini 2.0 原生绘画能力惊艳我了,兑现了我对 GPT-4o 曾经的幻想!


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
来源 | 夕小瑶科技说

等了好久,谷歌终于开放了 Gemini 2.0 的原生绘图能力。

其实,Gemini 2.0 系列模型早在2024 年 12 月 就正式发布了,是谷歌首次支持原生多模态输出的版本(文本、图像、音频),但是当时并没有开放绘画能力。

昨天,谷歌正式放出了 Gemini 的原生绘画能力,目前大家可以直接在 Google AI Studio 免费体验。注意,这里是原生,由Gemini直接混合生成文字和图片(后文视频里能看到),而不是调用外部绘画模型。

大家体验一定是选Gemini 2.0 Flash Experimental这个实验版模型,输出设置成文本和图像混合输出。

我上手测了一天,基本全程 WOC,已献上我的膝盖。

GPT-4o是第一个主打原生多模态的模型,比如它的语音、视觉理解一放出来就当时就炸场了,但是它的绘画能力是通过调用外部的DALL·E来实现的。但是这次Gemini的绘图能力则是原生绘图,兑现了我对 GPT-4o 具备原生绘画能力的幻想!而且,Gemini绘图的“一致性”太顶了。

什么颠覆设计圈、动嘴 P 图、设计师噩梦看多就腻了,请看效果——

第一个:给人物变形出多种动作

23 年好多搞 AIGC 创业的朋友中一致认为能赚到钱为数不多的场景之一——

「淘宝电商的批量生图」

当然也是在那个时间就已经被吐槽非常卷的赛道。

我随便输入一张模特图,让 AI 换一些不同的拍照姿势

人物、裙子完美和原始模特保持一致,完全看不出是 AI 生成的。

第二个:14 轮连续对话修图

整个对话的过程是这样的:

  1. draw a box(画一个箱子)
  2. make it silver(变成银色的)
  3. Realistic(真实点)
  4. 最上面变成玻璃
  5. 玻璃下面,柜子上面放上珠宝
  6. 柜子变成高级的展示柜
  7. 变成真实材质的渲染图
  8. 柜体变成实木的
  9. 里面添加珠宝,光线明亮一些
  10. 添加背景环境和地板
  11. 珠宝区太亮了,稍微暗一点,环境奢华一些
  12. 暗一些
  13. 管线调整暗一些
  14. 过于暗了,正常的商场环境就行

从最开始画一个箱子,到经历 14 轮连续对话,变成一个商场的珠宝展示箱。

全程我就用的最简单的话,告诉它我的需求,跟指挥一个设计师给我画图一样,整个过程非常丝滑连贯。

一点点地调整,只有中间一步是强调了两遍光线变暗,其他都是一次过。

第三个:一句话生成绘本,插画师的噩梦

问题很简单:

给我讲一个小黑猫大战外星人的故事, 3d cartoon animation style. For each scene, generate an image.

猫的形象全程一致,而且表情丰富,就是连配角外星人的形象都保持了前后一致。

第四个:球鞋设计,从线稿到模特上身,一气呵成

连线稿都不用提供,我这里就是让 AI 直接生成,懒得找了。

中间让 AI 设计,上色,调整 nike 标和鞋底位置的颜色,调整配色风格,从一只变成一双,让职业运动员穿上看效果。

需求很多,尽可能去模拟真实工作环境的各种要求,就光一个“颜色太卡通,不够稳重”这个恶心的需求,日常让人干的话都多少天完成?就好比让申公豹长毛的特效。

我觉得这里的完成度也很好。

看完你就能理解,为什么我称 Gemini2.0 是一致性的神了。

它既能一次性生成多张图片,并保持角色、场景和风格的一致性。这真的能解决视频分镜和连续内容创作中的大痛点。也能在一轮轮的修改过程中保持一致性。我觉得大家可以加大轮数再试!

再来看看 X 上网友的 case:

第五个:游戏原画师也要噩梦了

这是 X 上网友的一个两个 case。都和游戏场景里有关。

而且,能把具体的一个东西放在任何场景里都不会违和。

看完已献上我的膝盖。设计师看完都要集体沉默了。

但是别着急,夕小瑶的 case 怎么可能就到这儿!必须要为难一下它。看我下面跟上的几个 case,我发现它不是万能的。

好比这个 case——

这是某一个拍摄角度下办公室照片,我要它“变换几个不同的视角”。


一共生成了 3 张新图,第一张和第三张感觉像是扩图了,视角开大了,第一看没有问题,还有点意外,但是经不起推敲。仔细看,绿植的位置不一样,电脑显示器也变形了,灯泡还有漏掉。总之就是不能看细节。

我猜测,如果图片元素过多,比较复杂,细节处理能力很有限。

继续看——

依旧是一张办公室的图,同样是让 AI 给一些不同的拍摄视角。

只能说照片类型感觉对了,都是精致布置的办公室,而且有人,但是并不是我要的不同拍摄角度。我的预期是人的相对位置不能改变。

一种原因是我的指令比较简单,没有细节描述,不够细致。另一种还是上面提到的过于复杂的问题。


刷着刷着突然看到一张照片,好多人聚会的一张图,我就突发奇想,来一道终结题目。

都知道站在前排的人显脸大,那如果换个角度,从最后面的人开始拍呢。

说实话,难度确实大。

最后,Gemini 以惨败结束。毕竟这个要求 P 图师现在也做不到吧?

换个脸、换个发型、加个背景、扣掉一个东西,就是增删改一个简单的元素,是完全没有问题的;

再难一点,同一个主体变换动作,变换角度、变换一下场景,比如模特那个摆拍动作,小黑猫不同场景里也不会变形,都能保持非常不错的一致性,AI 操控的对象也是相对简单的,小猫没有那么多特征。

再再难一点,如果让 AI 操控一个复杂的、特征点多的、细节多的东西,就办不到了。

总之,经过一天上手的实测,Gemini2.0 的绘图能力依旧给我带来的感受是颠覆性的,它的一致性依旧是超超牛的存在,至少目前。

依旧有不足,但也请保持期待!


(文:机器学习算法与自然语言处理)

欢迎分享

发表评论