点击上方蓝字关注我们

AI生图的天被捅破了🔥

硬评测

作者 | Kozmon

编辑 | lalalunee

说实话，一开始我是有点不屑的。

AI生图这玩意儿，各种模型、各种平台，眼花缭乱，各路营销号吹得震天响，但实际体验嘛… 总觉得差点意思。

ComfyUI等免费工具，虽然效果出色但是操作门槛很高，对硬件配置要求也不低，始终在小圈子里打转；
Midjourney等付费工具，不仅价格高昂、描述提示词费劲，而且还是要不停“抽卡”，修改图片也非常麻烦。

直到我上手体验了Gemini 2.0的原生绘画能力，我才意识到，这次可能真不一样了——

不仅多模态一致性出奇地拉满，而且通过文字表述修图、换场景、扩图、合图等等操作已经完全没问题。

这感觉就像什么呢？

就像你以为手机拍照再怎么进化，也就是修修图、加个滤镜，结果突然有一天，手机直接拍出了电影大片质感，“咔嚓” 一声，直接改写行业规则。

资本市场的反馈可能更加直接——3月13日Google上线 Gemini 2.0 Flash Experimental ，Adobe股价随即大跌13%…

01

“动嘴P图”：是什么神仙操作？

Gemini 2.0 这次最炸裂的更新，就是它的 “原生多模态” 能力。

说人话就是，它终于把文本理解和图像生成这俩技能，无缝融合在一起了。

以前的AI生图，总感觉是两个模块硬拼在一起，理解指令隔靴搔痒，生成图像牛头不对马嘴。

但Gemini 2.0不一样，它就像一个真正理解你意图的“AI 画师”，你动动嘴皮子，它就能心领神会，给你画出你想要的东西。

例如，最让我感到“虎躯一震” 的 “对话式图像编辑” 能力。过去，PS “三年入门，五年精通”，各种图层、蒙版、滤镜、参数，折腾半天才能搞定的P图，在 Gemini 2.0 这里，动动嘴皮子就完事儿了！

👉 第一步：上传照片，选好模型和输出格式！

我随便上传一张照片，在右侧的模型栏选好 Gemini 2.0 Flash Experimental
，输出格式选好 Images and text。

🎨 第二步：“动动嘴” ，告诉 Gemini 2.0 你想怎么改！

比如这张，我想把人物西装改成红色，直接告诉它，等了不到十秒，duang，就改完了~

🏖️ 对话式图像编辑：背景、人物、细节，想怎么改就怎么改！

继续追问： “背景换一换，给我换成海滩”

可以看到，人物和背景融合得也相当自然，我还可以继续 “得寸进尺”： “海边穿西装有点热，给我换成短袖短裤，再加个游艇在后面”~

Wow！度假风瞬间拉满！整个过程，我没有用任何专业软件，没有调任何复杂参数，全程 “君子动口不动手”，就靠 “口述” 完成了堪比专业PS的图像编辑。

这种 “对话式图像编辑” 的体验，真的是颠覆性的。它把图像编辑的门槛，直接从 “专业技能” 降维打击到 “人人可用”。

02

🚀“一致性生成” 技能加持，创作力MAX！

除了强大的 “对话式编辑” 能力， Gemini 2.0 在 “一致性生成” 方面也给我带来了惊喜。

它可以连续生成风格高度一致的图片，这对于创作绘本故事、图文教程、系列海报等内容来说，简直是效率神器。

比如，我们让它做一个番茄炒蛋的教程，很快，图文并茂的教程就出来了：

我还试着用 Gemini 2.0 创建了一个 “种子破土发芽、最终开花” 的 GIF 动画，只需要简单描述 “种子破土、发芽、长叶、含苞待放、花朵绽放” 几个阶段， Gemini 2.0 就能自动生成风格统一、流畅自然的动画，效果也是相当惊艳：

03

“小瑕疵” 和“大未来”

当然， Gemini 2.0 的原生绘画能力，目前还处于 “尝鲜” 阶段，肯定还有一些 “瑕疵” 和 “进步空间”。

比如，生成图片的分辨率还有待提高，连续对话后也会出现一些 “抽风” 的情况，生成结果 “时而惊艳，时而鬼畜”。（比如这张）

但瑕不掩瑜，作为一个 “第一个吃螃蟹” 的 “原生多模态” 图像生成模型，Gemini 2.0 已经展现出了巨大的潜力和颠覆性的力量。

更重要的是，目前Gemini 2.0 的这项原生绘画能力，是完全免费开放体验的！👏

那么，看完这篇文章，你最想用它来做什么？欢迎在评论区分享你的看法！也欢迎把这篇文章分享到朋友圈，让更多朋友了解 Gemini 2.0 的强大功能！一起开启 “动嘴P图” 的新时代！ 😎

硬评测

（文：硬AI）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

01

02

03

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复