AI文生图最大问题不存在了，最新Gemini 2.0指哪改哪，网友已经玩坏了附指南

最近的热点实在太多了，当 Gemini 的文生图模型更新出来时，原以为只是平平无奇的小更新——万万没想到，属实是个大招。

在此之前，要么用 Stable Diffusion，要么走回 Photoshop 老路，反正还没有哪个模型，可以用如此简单的对话，就完成如此精细的修改。

Gemini 率先突破可控性这件事并不令人意外，二月时，Google 就推出了最新一代的图像生成模型 Imagen 3，当时就强化了提示词的跟随功能。

当时还只面对付费用户，现在在 AI Studio 中已经可以看到更完整丰富的呈现。可以说，在目前文生图的可控性程度，以及相对应的用户体验上，Gemini 的确做到了无人能出其右。

下面我们会具体解释为什么这样下结论。同时在测试过程中，我们也发现了一些使用技巧，一并奉上。

可控性不好？不存在了

诚实的说，单纯讲生成还是有一点不稳定，但是 Gemini 2.0 Flash Experimental 展示出了堪称逆天的修改可控性。

下面这组花田图里，使用了 Imagen 3 的官方实例：Impressionistic landscape painting of a sunset over a field of sunflowers， vibrant colors， thick brushstrokes， inspired by Monet。

中间的修改提示词，是为了把天空换成蓝绿色：turn the clouds at the back of the picture in to blue-greenish color

注意看中间圈出来的地方，花田和天空过渡处的油彩，基本没有变化——模型充分理解这个修改提示词里「局部改色」的意图，只对天空局部改动，其它任何地方都保持了不变。

接下来这组城市街景的例子更明显，生成提示词：generate a Tokyo street crossroad， cars passing the traffic light and people walking around

细部有些地方还是不太能看的，生成这一步的不稳定性还是没有被完全驯服。真正有惊人改变的，是细部的指令跟随。

「我想要变成夜景」「街上应该有灯光」，提示词可以非常直给就完成修改。来感受一下四轮对话之后，形成的整体变化对比。

四张图渐次展示了城市从白天、黄昏、傍晚、再到夜晚的样子。而在四轮对话中，说改车就改车，不说改动行人就保持原样——不可控性不存在了！

Tip：生成+修改最稳定

局部修改的功能，如果是在现有图片上改动，效果没那么好，比较粗暴。下面是两张现图改夜景的例子。

最稳定的组合是从生成到修改，一条龙完成，在后续的修改里可控性就更高。

整体变化，一句话完成

除了局部改动，还可以改动视角，这也是非常实用的功能。对于短片的故事板、产品多视角展示，都相当有帮助。

产品图的修改真正做到了随心所欲。

要描述的是图片最终的样子，而不是修改图片的过程

Gemini 理解模糊指令是没问题的，只是需要注意一下模糊的「方式」。

比如想变换镜头视角，要描述的应该是最后形成的结果，如「从左边拍摄的样子」，而不是「镜头移动到左边」。这毕竟还是一个静态文生图，并不能呈现镜头移动。

换句话说，指令越简单直给反而越好。

一进入 Stduio 还有一个官方示例是做一张生日卡片，可以直接尝试。不过，想要更高的可控性，最好复制粘贴了之后，自己新建一个对话。

接下来我修改了里面的元素，花朵被替换成星球，再简单做个 3D 效果。

然后，我对 Gemini 给出了那个最震撼的指令：我要五彩斑斓的黑。

等待时间来到了一百多秒😂 在等待的过程中，还有两个必须提醒的地方：

一些基础设置必不可少

进入 Studio 之后，需要在右侧 Model 一栏，选择最新的 Gemini 2.0 Flash Experimental。

成功进入后，记得左侧的 Library 一栏，设置一下账号关联生成 Library，否则有可能无法保存会话。

最后来看下， Gemini 想明白了怎么改黑色了吗？

500s 过去了，毫无动静——AI 还是理解不了五彩斑斓的黑啊！

我们正在招募伙伴

📮 简历投递邮箱
hr@ifanr.com

✉️ 邮件标题
「姓名+岗位名称」（请随简历附上项目/作品或相关链接）

更多岗位信息请点击这里🔗

（文：APPSO）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复