谷歌版 4k Sora上手效果分享,它可太懂物理世界和人物运动了!

OpenAI 12天直播的第八天,

我们迎来了GPT Search的更新,

值得一提的是AI搜索跟语音模式结合,现在可以进行实时语音搜索了(虽然这个每天一点点的更新真的含金量一般……)

不过,同一时间,谷歌又发新东西了!而且是好东西!

对比OpenAI,

谷歌这边甚至都没开发布会,就天天放大招,

量子芯片、Gemini 2,还有就是今天的主角——

Veo 2

我愿称之为4K版的Sora,后缀不带Turbo的那种,满血版Sora,

是我们想象中的Sora!

但它有自己的名字,以后我们不必记得Sora,只需要记得,

最牛的文生视频叫 Veo 2!


 4k Sora – Veo2 

根据各种case和官方消息总结一下Veo-2的特点:

  • 支持生成4K视频
  • 视频时长可以延长至几分钟
  • 足够真实的物理交互
  • 可以完成非常复杂的动作和细节

现在我们直接来分享一波最新的上手测试案例:

先看几个非常牛的视频,放到文生视频领域,绝对是top级别的碾压效果!

我不得不说,我对于文生视频的期待一直都是高的,因为基本上所有工具的文生视频效果都要高于图生视频。

但看到这个我还是惊呆了,

小蜘蛛触碰水滴弹开和后退的动作几乎看不出生成痕迹,

镜子里的狮子和看镜子的猫咪动作表情细节完全一致,

男人在蜜蜂环绕的环境中拿起杯子,整个过程甚至连蜜蜂都没有突然消失或者融合扭曲,

刀切番茄的时候,和真实世界几乎无差别,要知道以前生成切什么东西的效果时,那个刀的质感总感觉是软趴趴的,感受不到物体和刀之间的力,但现在谷歌有了!

不愧是【更强的理解真实世界的物理现象】!

逼真度真的杠杠的!

然后我还发现了海外的一个“土豆艺术家” @babaeizadeh 用 Voe 2 做的一系列土豆视频,真的又稳又搞笑!甚至还有因为主角是土豆拥有了出奇的一致性!

讲道理,这每一个小土豆都很生动,而且画风也很多样,可以说真正的突破了文生视频的天花板了!

而且,谷歌这次还把badcase都发上来了,

但这badcase好像也不是很bad啊,,这人物动作是稳定的,只是画面中部分元素出现了扭曲或幻觉(我感觉多抽几次肯定是有完美视频的……)

再有就是,以往对比更个工具的效果,我要生成近百个视频横评,

那这回谷歌直接上榜单,通过Meta出的数据集进行评测,主打一个看上去效果要好,评分要更好。

veo2 pk sora pk 海螺 pk 可灵,sora落入下风

小遗憾是目前需要加入waitlist:

Veo 2🔗:https://labs.google/fx/tools/video-fx

听说已经有人用上了!谷歌速度冲啊!

最后再放几个网友的goodcase,该说不说,我真的跃跃欲试想测上100个:

 AI生图新玩法 – Imagen3 

这次更新除了Veo2,还有Imagen3和Whisk,一个是文生图,另一个是图生图,我们来一个个说:

Imagen3这次给提示语加了个花活,

可以将我们给出的复杂提示语自动切割成一个个词组,然后将一些词通过下拉框的形式提供多个联想词,然后创造出更多有意思的图片:

就比如我们这个【探险帅狐】,可以变换背景,变换手中拿的藏宝图,还能保持主体一致,玩法新颖还稳定,谷歌,真不怪我夸你!

评分当然也没拉下:

整体超过了flux、sd等等一众生图工具!

看一个海外网友的对比图,对比下来确实imagine-3的光影和各方面细节最棒!

全量上线,还是免费。谷歌这老大哥GPU还是够够的,上周的gemini-2.0-flash也免费,而且基本没有出现openai那种大面积访问不了的情况:

Imagen3🔗:https://labs.google/fx/zh/tools/image-fx

再来看几张我生成的图,这波还得是谷歌这老大哥!

 多图融合 – Whisk 

最后就是这款多图片融合的图生图工具 Whisk。

谷歌这次的跨界真的有点大,

隔壁的pika新推出的、以及我们之前测试的vidu推出的多主体一致性,让谷歌搬到图片生成上了。

谷歌这次将三张图片槽分成了主体、场景、风格,将照片推动进去之后就能生成一张新的图片。

就比如可以用一个徽章图固定我们想要的风格,再给一个新的主体,然后我们就能得到一个新的徽章啦!

我们直接来看一下@WilliamLamkin的操作视频:

最后看下效果图:

实际上,根据官方给出的提示,Whisk的逻辑是将我们上传的图片传送到Gemini模型然后生成详细的文本,最后文本会被输入到Imagen 3中处理。

这样的过程就意味着Whisk的整个过程并非是复制图片,还是使用模型来提取整个图片的特征,然后根据特征再进行图片的融合和生成。

所以,我们对于Whisk的效果期待和其他的一般图生图工具,应该是完全不同的,整个过程也是一个全新的生成创意,这是让我最佩服的。


 写在最后 

我个人还是喜欢这种自成体系的更新,

Veo2、Imagen3和Whisk组成了谷歌在多模态领域的一条新的工作流。

光看着就很舒服,

不需要像openai那样,天天猜谜。

好好打磨一下作品,oai本身就是一个巨大的光环😇。

从最初 AI 工具开始盛行的时候,

我们就说,这即将是一个比拼创意的时代,

而在越来越多的更新中,我们能够感受到,

效果越来越稳定,越来越接近真实,

但是创意,

谷歌这次做到了。

@ 作者 / 卡尔 & 阿汤@ 动手学AI知识库 / learnprompt.pro


(文:卡尔的AI沃茨)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往