Gemini 2.0的“用嘴改图”终于上线了，这是AI绘图的新范式。

Google这两天动作蛮多。

昨天刚开源Gemma3，然后今天夜里，鸽了N久的Gemini 2.0的原生多模态生图功能，也终于开放了。

这也是我对Gemini 2.0最期待的功能。

在出门回来，玩了一下午后，我觉得终于可以给你们分享一下，这玩意的有趣之处了。

先给你们直观的感受一下，它能干啥。

比如我现在有一张图，是一个很酷的小姐姐。

我想让这个小姐姐，变成长头发。

你无需PS，无需局部重绘，只需要一句话就行。

Gemini 2.0，就会瞬间保证所有的其他细节不变的情况下，把小姐姐变成长发。

我们还可以，一句话，让她把眼睛闭上。

再把她的脸，换成特朗普。。。

这个效果，emmmm，我无法评价。。。

又或者，这是一套扑克牌的图。

我想把把最右边的红桃A扑克牌，变成梅花2。

一句话，就成。

不过这个得roll，我roll了3次才roll出来。

你也可以改文字。

甚至，可以扔一个草图进去，然后说：

请你根据这张手绘线稿图，生成对应的一张真实房屋渲染图。

对这个屋子材质不满意，你还可以，改成木质的。

这，就是言出法随的力量。、

得益于Gemini 2.0的多模态能力，类似于之前的GPT4o，GPT4o是语音端到端，而Gemini 2.0，则是图片端到端。

集图片理解和生成为一身。

而且，画出的图，审美也还凑合，虽然还远远达不到类似MJ、Flux那种质量，泛化能力也差点意思，但，能用了。

在多模态大模型上，能用的言出法随，是非常关键的一点。

说下怎么用。

打开https://aistudio.google.com/

正常你登录后会看到这个界面（需要魔法）。

然后，在右侧把模型，切换成Gemini 2.0 Flash Experimental。

目前限免，可以随意白嫖。

同时记得output这块，一定是Images and text，千万别只选Text，那你就生成不了图了。

接下来，直接在对话框里，传你图片，加上文字描述就OK。

比如我把我的头像，变成3D实物。

而且你不止可以传一张图，你也可以，传两张图，然后，融图。

虽然它换logo换的还有点贴片感，比较这个太难了，但是产品图，就会好很多了。

比如1和2结合。

光影还是有一些不匹配，有一些贴图感，但不妨碍很准确。

再给半年时间迭代，我觉得，一切都不是问题。

甚至你还可以，不只是图+文字进去，你还可以，直接让它给你生成图文混排的教程。

比如这个做番茄炒蛋的case。

你现在，是真的拥有一个图文混排的教程了。。。

甚至，你还可以，给一个平面图，直接做每个房间的渲染图。

我随手生成了一个两室一厅的平面图。

然后，扔给了Gemini。

怎一个离谱了得。。。

这种一致性，做故事、做分镜，真的就是手到擒来。

两年多了，生成式AI在图像编辑领域的进步，真的也就像悄悄进行的大革命。

从最初需要苦学多年Photoshop和图像处理技术，到如今只需一句话就能实现你的所有创意。

我们不再受限于专业技能的掌握程度，就算是从来没用过PS的小白，也可以轻松地用嘴，将脑海中的创意转化为现实。

言出法随，从这一刻，成真了。

这或许。

就是AI时代。

它们给予我们最珍贵的礼物。

（文：开源星探）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

发表评论取消回复