
AI生图的天被捅破了🔥
硬评测
作者 | Kozmon
编辑 | lalalunee
说实话,一开始我是有点不屑的。
AI生图这玩意儿,各种模型、各种平台,眼花缭乱,各路营销号吹得震天响,但实际体验嘛… 总觉得差点意思。
-
ComfyUI等免费工具,虽然效果出色但是操作门槛很高,对硬件配置要求也不低,始终在小圈子里打转;
-
Midjourney等付费工具,不仅价格高昂、描述提示词费劲,而且还是要不停“抽卡”,修改图片也非常麻烦。
直到我上手体验了Gemini 2.0的原生绘画能力,我才意识到,这次可能真不一样了——
不仅多模态一致性出奇地拉满,而且通过文字表述修图、换场景、扩图、合图等等操作已经完全没问题。

这感觉就像什么呢?
就像你以为手机拍照再怎么进化,也就是修修图、加个滤镜,结果突然有一天,手机直接拍出了电影大片质感,“咔嚓” 一声,直接改写行业规则。
资本市场的反馈可能更加直接——3月13日Google上线 Gemini 2.0 Flash Experimental
,Adobe股价随即大跌13%…

01
“动嘴P图”:是什么神仙操作?
Gemini 2.0 这次最炸裂的更新,就是它的 “原生多模态” 能力。
说人话就是,它终于把文本理解和图像生成这俩技能, 无缝融合在一起了。
以前的AI生图,总感觉是两个模块硬拼在一起,理解指令隔靴搔痒,生成图像牛头不对马嘴。
但Gemini 2.0不一样,它就像一个真正理解你意图的“AI 画师”,你动动嘴皮子,它就能心领神会,给你画出你想要的东西。
例如,最让我感到“虎躯一震” 的 “对话式图像编辑” 能力。过去,PS “三年入门,五年精通”,各种图层、蒙版、滤镜、参数,折腾半天才能搞定的P图,在 Gemini 2.0 这里,动动嘴皮子就完事儿了!
我随便上传一张照片,在右侧的模型栏选好 Gemini 2.0 Flash Experimental
,输出格式选好 Images and text
。

比如这张,我想把人物西装改成红色,直接告诉它,等了不到十秒,duang,就改完了~
继续追问: “背景换一换,给我换成海滩”

可以看到,人物和背景融合得也相当自然,我还可以继续 “得寸进尺”: “海边穿西装有点热,给我换成短袖短裤,再加个游艇在后面”~

Wow!度假风瞬间拉满!整个过程,我没有用任何专业软件,没有调任何复杂参数, 全程 “君子动口不动手”, 就靠 “口述” 完成了堪比专业PS的图像编辑。
这种 “对话式图像编辑” 的体验,真的是颠覆性的。 它把图像编辑的门槛, 直接从 “专业技能” 降维打击到 “人人可用”。
02
🚀“一致性生成” 技能加持,创作力MAX!
除了强大的 “对话式编辑” 能力, Gemini 2.0 在 “一致性生成” 方面也给我带来了惊喜。
它可以 连续生成风格高度一致的图片, 这对于创作绘本故事、图文教程、系列海报等内容来说,简直是效率神器。
比如,我们让它做一个番茄炒蛋的教程,很快,图文并茂的教程就出来了:



我还试着用 Gemini 2.0 创建了一个 “种子破土发芽、最终开花” 的 GIF 动画, 只需要简单描述 “种子破土、发芽、长叶、含苞待放、花朵绽放” 几个阶段, Gemini 2.0 就能自动生成 风格统一、流畅自然的动画, 效果也是相当惊艳:

03
“小瑕疵” 和“大未来”
当然, Gemini 2.0 的原生绘画能力,目前还处于 “尝鲜” 阶段, 肯定还有一些 “瑕疵” 和 “进步空间”。
比如, 生成图片的分辨率还有待提高,连续对话后也会出现一些 “抽风” 的情况, 生成结果 “时而惊艳,时而鬼畜”。(比如这张)

但瑕不掩瑜,作为一个 “第一个吃螃蟹” 的 “原生多模态” 图像生成模型,Gemini 2.0 已经展现出了巨大的潜力和颠覆性的力量。

更重要的是,目前Gemini 2.0 的这项原生绘画能力,是完全免费开放体验的!👏
那么,看完这篇文章,你最想用它来做什么?欢迎在评论区分享你的看法!也欢迎把这篇文章分享到朋友圈,让更多朋友了解 Gemini 2.0 的强大功能!一起开启 “动嘴P图” 的新时代! 😎
硬评测
(文:硬AI)