
OpenAI 12天直播的第八天,
我们迎来了GPT Search的更新,
值得一提的是AI搜索跟语音模式结合,现在可以进行实时语音搜索了(虽然这个每天一点点的更新真的含金量一般……)
不过,同一时间,谷歌又发新东西了!而且是好东西!
对比OpenAI,
谷歌这边甚至都没开发布会,就天天放大招,
量子芯片、Gemini 2,还有就是今天的主角——
Veo 2
我愿称之为4K版的Sora,后缀不带Turbo的那种,满血版Sora,
是我们想象中的Sora!
但它有自己的名字,以后我们不必记得Sora,只需要记得,
最牛的文生视频叫 Veo 2!
4k Sora – Veo2
根据各种case和官方消息总结一下Veo-2的特点:
-
支持生成4K视频 -
视频时长可以延长至几分钟 -
足够真实的物理交互 -
可以完成非常复杂的动作和细节
现在我们直接来分享一波最新的上手测试案例:
先看几个非常牛的视频,放到文生视频领域,绝对是top级别的碾压效果!
我不得不说,我对于文生视频的期待一直都是高的,因为基本上所有工具的文生视频效果都要高于图生视频。
但看到这个我还是惊呆了,
小蜘蛛触碰水滴弹开和后退的动作几乎看不出生成痕迹,
镜子里的狮子和看镜子的猫咪动作表情细节完全一致,
男人在蜜蜂环绕的环境中拿起杯子,整个过程甚至连蜜蜂都没有突然消失或者融合扭曲,
刀切番茄的时候,和真实世界几乎无差别,要知道以前生成切什么东西的效果时,那个刀的质感总感觉是软趴趴的,感受不到物体和刀之间的力,但现在谷歌有了!
不愧是【更强的理解真实世界的物理现象】!
逼真度真的杠杠的!
然后我还发现了海外的一个“土豆艺术家” @babaeizadeh 用 Voe 2 做的一系列土豆视频,真的又稳又搞笑!甚至还有因为主角是土豆拥有了出奇的一致性!
讲道理,这每一个小土豆都很生动,而且画风也很多样,可以说真正的突破了文生视频的天花板了!
而且,谷歌这次还把badcase都发上来了,
但这badcase好像也不是很bad啊,,这人物动作是稳定的,只是画面中部分元素出现了扭曲或幻觉(我感觉多抽几次肯定是有完美视频的……)
再有就是,以往对比更个工具的效果,我要生成近百个视频横评,
那这回谷歌直接上榜单,通过Meta出的数据集进行评测,主打一个看上去效果要好,评分要更好。
veo2 pk sora pk 海螺 pk 可灵,sora落入下风
小遗憾是目前需要加入waitlist:
Veo 2🔗:https://labs.google/fx/tools/video-fx
听说已经有人用上了!谷歌速度冲啊!
最后再放几个网友的goodcase,该说不说,我真的跃跃欲试想测上100个:
AI生图新玩法 – Imagen3
这次更新除了Veo2,还有Imagen3和Whisk,一个是文生图,另一个是图生图,我们来一个个说:
Imagen3这次给提示语加了个花活,
可以将我们给出的复杂提示语自动切割成一个个词组,然后将一些词通过下拉框的形式提供多个联想词,然后创造出更多有意思的图片:
就比如我们这个【探险帅狐】,可以变换背景,变换手中拿的藏宝图,还能保持主体一致,玩法新颖还稳定,谷歌,真不怪我夸你!
评分当然也没拉下:
整体超过了flux、sd等等一众生图工具!
看一个海外网友的对比图,对比下来确实imagine-3的光影和各方面细节最棒!
全量上线,还是免费。谷歌这老大哥GPU还是够够的,上周的gemini-2.0-flash也免费,而且基本没有出现openai那种大面积访问不了的情况:
Imagen3🔗:https://labs.google/fx/zh/tools/image-fx
再来看几张我生成的图,这波还得是谷歌这老大哥!
多图融合 – Whisk
最后就是这款多图片融合的图生图工具 Whisk。
谷歌这次的跨界真的有点大,
隔壁的pika新推出的、以及我们之前测试的vidu推出的多主体一致性,让谷歌搬到图片生成上了。
谷歌这次将三张图片槽分成了主体、场景、风格,将照片推动进去之后就能生成一张新的图片。
就比如可以用一个徽章图固定我们想要的风格,再给一个新的主体,然后我们就能得到一个新的徽章啦!
我们直接来看一下@WilliamLamkin的操作视频:
最后看下效果图:
实际上,根据官方给出的提示,Whisk的逻辑是将我们上传的图片传送到Gemini模型然后生成详细的文本,最后文本会被输入到Imagen 3中处理。
这样的过程就意味着Whisk的整个过程并非是复制图片,还是使用模型来提取整个图片的特征,然后根据特征再进行图片的融合和生成。
所以,我们对于Whisk的效果期待和其他的一般图生图工具,应该是完全不同的,整个过程也是一个全新的生成创意,这是让我最佩服的。
写在最后
我个人还是喜欢这种自成体系的更新,
Veo2、Imagen3和Whisk组成了谷歌在多模态领域的一条新的工作流。
光看着就很舒服,
不需要像openai那样,天天猜谜。
好好打磨一下作品,oai本身就是一个巨大的光环😇。
从最初 AI 工具开始盛行的时候,
我们就说,这即将是一个比拼创意的时代,
而在越来越多的更新中,我们能够感受到,
效果越来越稳定,越来越接近真实,
但是创意,
谷歌这次做到了。
@ 作者 / 卡尔 & 阿汤@ 动手学AI知识库 / learnprompt.pro
(文:卡尔的AI沃茨)