谷歌Gemini火力全开!实测:原生图像生成新升级确实强

一水 发自 凹非寺
量子位 | 公众号 QbitAI

谷歌Gemini原生图像生成功能又双叒升级了!

与之前的实验版本相比(Gemini 2.0 Flash Experimental),这一次主打图像质量更好、文本渲染更准确,生成速度更快。

只需一句话,就能将两张图片中的元素丝滑融合在一起。

还能实时编辑图像,比如刚说完给图中人物加上眼镜,图片立马就生成好了。

p.s. 这个需要在Google AI Studio的Starter Apps板块体验

也可以指定仅修改图中某一部分,新图的其他部分能同时和原来保持一致。

更有意思的是,搭配Gemini 2.0 Flash食用,还能让模型自己构思自己生图。

现在,这些功能都可以在Google AI Studio免费试玩,模型请认准“gemini-2.0-flash-preview-image-generation”

开发者可以通过Google AI Studio和Vertex AI中的Gemini API集成,每张图片的价格为0.039美元(约合人民币0.28元)

实际上,本次升级距离谷歌首次推出Gemini原生图像生成功能,仅过去一个多月时间。

网友们的感受也都体现在了下面这张梗图中:

谷歌最近真是火力全开啊!

实测最新升级

据谷歌AI Studio开发者平台产品负责人透露, 本次升级主要体现在以下几个方面:

  • 更好的视觉质量
  • 更准确的文本渲染
  • 显著降低滤波器阻塞率(延迟和卡顿更低)
  • 更高的速率限制(更快生成图像或能同时处理更多图像)

那么其实际表现究竟如何呢?我们也第一时间进行了实测。

首先,在谷歌提供的demo中,我们看到了它能很好地将完全不同的元素自然融合在一起。

于是我们也提供了下面两张原图,要求它帮忙生成量子位周边。

实测用时5.4s,几乎一瞬间就生成了我们想要的图片。

尽管logo的颜色还有细微偏差,但整体构图已经很成熟了,处理抠图以及融合都比较干净。

而且上面这个例子还顺道考查了其文字渲染能力,除了中文,我们再尝试一下其他文字。

最常见的英文渲染正确,并且还自带艺术字设计。

继续换成希腊文(中译为“我爱你”)也有同款优秀表现,仔细对比未发现渲染错误。

OK,短暂告别这一趴,接下来我们测试其换图or扩图能力。

开启“找茬”模式后,我们不得不承认它确实只更换了吊床颜色,其他素材均和原图一致。

同时可以看到,在秒速生图过程中,它还会在接收用户指令后给出自己的理解。

此外,如果只给人物上半身,要求它生成完整人物形象呢?

第一次扩图,它只前进了一小步,完成了更多的人物上半身复原工作。

新生成的部分看起来也非常合理,从一根蓝色肩带扩展到了背带裤穿搭。

不过这不是我们一开始想要的“全身肖像”,所以继续……

最终结果如下,人物的比例和姿态都很完美,生成效果着实惊艳。

最后我们也体验了一波实时绘图功能,结论是其原生图像生成的速度确实快。

我们先随意画了一个太阳的草图,要求它为太阳加上笑脸,结果立马就搞定了。

而且还支持上色,效果也非常不错。

小结一下,从我们的实测来看,升级后的Gemini原生图像生成功能确实表现惊艳,尤其在遵循用户指令、文本渲染等方面。

当然,除了我们的测试,更多网友也第一时间分享了各自的玩法。

比较经典的就是用来搞装修设计,可以一键测试自己想要的装修风格。

不过也有浅浅翻车的,用它来扩图时最后生成的人物比例有点子怪异。

与此同时,也有人将它和近期非常火爆的GPT-4o生图进行了对比,初步结论是整体仍不如GPT-4o(doge)

One More Thing

值得一提的是,谷歌最新生图功能还能搭配Gemini 2.5 Pro(近期以强悍的代码能力而出圈)食用。

只需在提示栏中选择 “Canvas”,上传一张图片后输入下列提示词:

Transform this image into a code-based representation of its natural behavior.(将此图像转换为基于代码的自然行为表示)

最终就能得到一段视频演示。

除了预览效果,还能一键切换查看代码。

最后,也欢迎大家进行更多测试,顺便评论区带图分享一波~

在线体验:
https://aistudio.google.com/

(文:量子位)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往