100镜实测Gemini2.0″用嘴改图”新功能,AI生图的天被捅破了(附五档难度、12个真实案例)

一天前如果我跟你说,

有这样一个模型,原本只能生成文字,现在可以文生图、图生图、连续对话改图、自由修改提示语、每张图生成时间不超过10s,

你肯定以为我是吹牛,

但现在Gemini 2.0 Flash Experimental带着新的输出格式Images and text来了,

可以说它不仅把 OpenAI 没做出来的 DALLE4 做出来了,还超出了我的想象。

上面的视频就是我用 Gemini2.0 直接一键生成所有分镜图片,然后用 Vidu2.0 配合生成视频制作而成的小短片!

我只能说这个一致性牛,真的牛!堪称完美!

Gemini2.0 最牛的点是它是一个六边形选手,虽说在部分极限 Cases 上没做到碾压,但在不同工作流里面表现都相当能打,绝对是我认为目前最均衡的 AI 生图工具。

再加上语言模型的优势,它是真正意义上把 AI 生图的提示语缩短了。因为可以多轮对话,我可以不断补充生图的条件,而不是要一口气输出上百字的提示语。关键还免费!

这种堪比许愿级别的重大更新,当然值得我们的100镜系列出动,这次我和阿汤一拍即合,做出了一套新的测试:

  • 视频分镜创作:一键生成分镜脚本和图片,实现高一致性,并能针对具体某一分镜进行多次修改
  • 连续一致性:多轮对话中,模型对图片上下文的理解、记忆和一致性维护能力。
  • 复杂性与细节:模型处理复杂场景、精细物体、以及多重修改的能力。
  • 创造性与风格化:模型在不同艺术风格、设计理念下的创作能力。
  • 实用性与专业性:模型在专业领域(如物品设计、建筑设计)的辅助能力。

视频分镜创作这一趴,刚刚我们已经看过效果了。那么,接下来我们就直接分成不同难度星级的场景,来考验一下 Gemini2.0 在剩下的几个测试维度下表现如何吧!

Here we go!


 一星难度🌟 

第一档难度我们先来一个材质和光影的交互

生成一个放在木桌上的玻璃球,让阳光透过窗户照在球上,产生折射和焦散效果。然后,把木桌换成大理石,并改变阳光的角度,让阴影更长。

从上到下可以感受到阳光亮度的提升、桌子材质变化以及阴影的拉长。而且局部的修改并不会影响图片整体的布局,而且基本都是一次过。最6的是,桌子材质变化后,倒影还会发生变化。这语音理解能力和连续记忆能力之前也就 DALLE3 才能勉强及格了。


 二星难度🌟🌟 

第二档我们试试看手绘稿的精细化渲染和风格指定

基于我上传的手绘草图(一个未来城市景观),生成赛博朋克风格的渲染图,强调霓虹灯光和雨夜氛围。然后,将其转换为水彩/水墨/皮克斯/动漫/3D超写实风格,并保持构图不变。

虽然没有很赛博,但是第一次的上色效果还是很好的,建筑细节的蓝色灯光、街道的橙色灯光、彩色的云霞,而后面的多种风格里,水墨风居然是做的最好的。

而且从这次完整对话,我发现了 Gemini2.0 大概率应该是只有文本的连续对话记忆能力,图片只记录了上一轮的,从图片里的修改就可以看出来,特别是最后一轮我特意指定一开始的图片,但 Gemini2.0 输出的图片还是没摆脱上一轮图片的晕染开的缺点。

第二档难度还有进阶考核,来个多风格融合,还需要模型想象出一个不存在的事物

设计一款未来概念汽车,融合跑车的流线型、越野车的粗犷感和飞船的科技感。生成三种不同配色方案:红黑、蓝白、银灰。然后,选择红黑方案,增加车身两侧的火焰喷射特效。

这车特里特气的,这个案例我尝试了一次性生成多张图片,生成多张图片之后还支持特定的一张来进行二次修改,制作的效率超级加倍。

当然我们还可以反过来让 Gemini2.0 在一张图里 生成一个人常见的所有情绪,效果也还不错:


 三星难度🌟🌟🌟 

第三档难度我们来一些 PS Things,

PS 专属的 AI 抠图!

在一张森林照片中抠出一个湖泊,并将其替换为沙漠中的绿洲,确保光影和环境的自然过渡。然后,在绿洲中添加一群骆驼,并给它们打上逆光效果。

由于难度已经到了三级,我不会再给 Gemini2.0 修改建议了,就用最难的甲方思路,我觉得这不行,你给我改改。

然后我们可以看到从湖泊改成沙漠绿洲的时候,过渡做的还可以,但是追加的几只骆驼就相当突兀,没有影子,感觉有种非常粗糙的拼贴感,即使后面想要再融合一下光影细节,也救不回这张图片。


 四星难度🌟🌟🌟🌟 

第四档难度我们来考究Gemini2.0对动态场景连续变化的掌握程度了。

生成一个海滩日落的场景,随着时间推移,太阳逐渐落下,天空颜色从橙色变为紫色,海浪不断拍打岸边。然后,在沙滩上添加一对正在散步的情侣,他们的影子随着太阳位置变化。

可以看到一次性生成这8个镜头还是有难度的,尤其镜头3、6、7的场景紫得发黑,其中镜头3通过对话修改回来了,6、7还是老样子,而且对于提示语中的“时间变化”,Gemini2.0似乎并没有理解,只是一味的改变了颜 色,看来这个难度确实高了一些。

同为第四档难度,我们觉得模型本身的审美也很重要,让模型自己去表达抽象概念,以及改变画面的情感基调:

生成一张图片,表达‘孤独’的感觉,使用冷色调和空旷的场景。然后,在图片中加入一个元素,象征‘希望’,并调整色调,让画面稍微温暖一些。

看来在 Gemini2.0 的视角里冷色调的海洋和浅蓝色的天空代表了孤独,有意思的是之前生成图片都没有给出解释,这里额外添加了图像描述

在它的视角里,

人的坚持、阳光、月光代表了希望,日落的色彩代表了温暖。

真好。


 五星难度🌟🌟🌟🌟🌟 

五星难度意味着画面里的事物的数量要拉高了,我们要测试模型对超现实场景的想象力和构建能力,对不符合常规逻辑元素的处理能力,以及复杂场景细节构建

生成一个中世纪欧洲小镇广场的场景,包括市场摊位、来往人群、鸽子、以及远处的教堂。然后放大广场一角,仔细描绘一个正在卖艺的街头艺人和他的猴子。然后聚焦在猴子身上,给它换上马戏团小丑的服装。

基本上这个提示语就是考验 Gemini2.0 对于提示语中切换镜头的遵循。先不吐槽这个“中世纪欧洲小镇广场”跟异世界漫画长得一模一样,在中间那一张图里人消失的上半身、变异猴子,还有多翅膀的鸽子让我有点崩不住了,这啥啊这是? 这一趴我只能给0.5分。

第五档难度理应有物品设计和建筑设计作为压箱底的试题,毕竟生图模型现在通过ComfyUI、SD WebUI、LoRA等早就搭建出了一个个专业的工作流。

设计一款智能手表,要求具有圆形表盘、金属表壳和皮革表带。生成三种不同材质的表带:棕色鳄鱼皮、黑色小牛皮、蓝色帆布。然后,选择黑色小牛皮表带,将这个表戴着一个男生手上看看搭配效果

这个设计图真的做的有模有样的,三视图都弄出来了,还做出了表带的侧视图,表冠的放大结构图。在生成表达的时候,用的都是展示手表的经典角色,还顺手给手表上个色。

当加入模特的手后,表现也很不错,感觉电商设计行业也要开始瑟瑟发抖了。

小物体测完了,马上来个大物件,

设计一栋现代风格的别墅,要求有落地窗、游泳池和花园。生成三种不同的外墙材料:白色石材、灰色混凝土、木质贴面。然后,选择灰色混凝土外墙,将屋顶改为斜坡,并在花园中添加一个凉亭。

显然这是一个非常为难模型的问题,但 Gemini2.0 还是接下了这个活,生成了鸟瞰图、立面图和平面布局概念图,不过有点小 bug,平面图跟立面图有点对不上。

我真没想到有一天我会在 AI 上完上贴瓷砖小游戏,选了三种不同外墙材料也能一次性生成。最后加上花园的大别野好看吗?

测起来实在太好玩了,根本停不下来,在五档难度下,我开始使用 Gemini2.0 玩游戏了,

这次我选择生成一个动漫人物的背影,随机跳出一只宝可梦,在我跟Gemini2.0的对话当中,我还可以投掷精灵球,完成收复!

接下来我拿着这些图片去挨个滴滴深夜未睡觉的朋友们,有些还是UI、前端、设计,他们给出的终极打分是!(满分5分)

  • 图片基础质量:3.5
  • 理解准确性:3
  • 连续性:4.5
  • 细节表现力:3.5
  • 创造性:3
  • 修改响应性:4
  • 逻辑性:4

当上面的分数优势,再加上 Gemini2.0 本身的生成速度、免费等优势,这些都结合在一起,我们可以得出结论,这个新工具好用!而且优势相当可观!

虽然部分想象力还有些缺失,强风格化的东西还做不出来,但不得不说,这,是,AI生图,真正意义上的新玩法!

是真的可以融入日常工作流的玩法!


 如何使用?

使用方法相当简单,

打开 AI Studio,右侧将模型切换到Gemini 2.0 Flash Experimental就可以直接开始对话了!

看图就能懂!


 写在最后 

多模态大模型开始发力了,

现在有 Gemini2.0 实现“用嘴改图”,

马上还有 Llama4。

从2025开年,我们就一直在说多模态将成为基座大模型的原生能力,

事实上,也确实在向我们期待的方向发展。

当 AI 代替了一部分人类的生产力后,

那些被节约下来的时间和精力,

人类将会创造出更多的意想不到。

所以,

玩起来吧,大家!

@ 作者 / 卡尔 & 阿汤 @ 动手学AI知识库 / learnprompt.pro


(文:卡尔的AI沃茨)

欢迎分享

发表评论