谷歌版 4k Sora上手效果分享，它可太懂物理世界和人物运动了！

OpenAI 12天直播的第八天，

我们迎来了GPT Search的更新，

值得一提的是AI搜索跟语音模式结合，现在可以进行实时语音搜索了（虽然这个每天一点点的更新真的含金量一般……）

不过，同一时间，谷歌又发新东西了！而且是好东西！

对比OpenAI，

谷歌这边甚至都没开发布会，就天天放大招，

量子芯片、Gemini 2，还有就是今天的主角——

Veo 2

我愿称之为4K版的Sora，后缀不带Turbo的那种，满血版Sora，

是我们想象中的Sora！

但它有自己的名字，以后我们不必记得Sora，只需要记得，

最牛的文生视频叫 Veo 2！

4k Sora – Veo2

根据各种case和官方消息总结一下Veo-2的特点：

支持生成4K视频
视频时长可以延长至几分钟
足够真实的物理交互
可以完成非常复杂的动作和细节

现在我们直接来分享一波最新的上手测试案例：‍‍‍‍‍‍‍

先看几个非常牛的视频，放到文生视频领域，绝对是top级别的碾压效果！

我不得不说，我对于文生视频的期待一直都是高的，因为基本上所有工具的文生视频效果都要高于图生视频。

但看到这个我还是惊呆了，

小蜘蛛触碰水滴弹开和后退的动作几乎看不出生成痕迹，‍‍‍

镜子里的狮子和看镜子的猫咪动作表情细节完全一致，

男人在蜜蜂环绕的环境中拿起杯子，整个过程甚至连蜜蜂都没有突然消失或者融合扭曲，

刀切番茄的时候，和真实世界几乎无差别，要知道以前生成切什么东西的效果时，那个刀的质感总感觉是软趴趴的，感受不到物体和刀之间的力，但现在谷歌有了！

不愧是【更强的理解真实世界的物理现象】！

逼真度真的杠杠的！

然后我还发现了海外的一个“土豆艺术家” @babaeizadeh 用 Voe 2 做的一系列土豆视频，真的又稳又搞笑！甚至还有因为主角是土豆拥有了出奇的一致性！

讲道理，这每一个小土豆都很生动，而且画风也很多样，可以说真正的突破了文生视频的天花板了！‍‍‍‍‍‍‍‍

而且，谷歌这次还把badcase都发上来了，

但这badcase好像也不是很bad啊，，这人物动作是稳定的，只是画面中部分元素出现了扭曲或幻觉（我感觉多抽几次肯定是有完美视频的……）

再有就是，以往对比更个工具的效果，我要生成近百个视频横评，

那这回谷歌直接上榜单，通过Meta出的数据集进行评测，主打一个看上去效果要好，评分要更好。

veo2 pk sora pk 海螺 pk 可灵，sora落入下风

小遗憾是目前需要加入waitlist：

Veo 2🔗：https://labs.google/fx/tools/video-fx

听说已经有人用上了！谷歌速度冲啊！

最后再放几个网友的goodcase，该说不说，我真的跃跃欲试想测上100个：

AI生图新玩法 – Imagen3

这次更新除了Veo2，还有Imagen3和Whisk，一个是文生图，另一个是图生图，我们来一个个说：

Imagen3这次给提示语加了个花活，

可以将我们给出的复杂提示语自动切割成一个个词组，然后将一些词通过下拉框的形式提供多个联想词，然后创造出更多有意思的图片：

就比如我们这个【探险帅狐】，可以变换背景，变换手中拿的藏宝图，还能保持主体一致，玩法新颖还稳定，谷歌，真不怪我夸你！‍‍‍‍‍‍‍‍‍‍‍‍‍‍

评分当然也没拉下：

整体超过了flux、sd等等一众生图工具！

看一个海外网友的对比图，对比下来确实imagine-3的光影和各方面细节最棒！

全量上线，还是免费。谷歌这老大哥GPU还是够够的，上周的gemini-2.0-flash也免费，而且基本没有出现openai那种大面积访问不了的情况：

Imagen3🔗：https://labs.google/fx/zh/tools/image-fx

再来看几张我生成的图，这波还得是谷歌这老大哥！

多图融合 – Whisk

最后就是这款多图片融合的图生图工具 Whisk。

谷歌这次的跨界真的有点大，

隔壁的pika新推出的、以及我们之前测试的vidu推出的多主体一致性，让谷歌搬到图片生成上了。

谷歌这次将三张图片槽分成了主体、场景、风格，将照片推动进去之后就能生成一张新的图片。

就比如可以用一个徽章图固定我们想要的风格，再给一个新的主体，然后我们就能得到一个新的徽章啦！

我们直接来看一下@WilliamLamkin的操作视频：

最后看下效果图：

实际上，根据官方给出的提示，Whisk的逻辑是将我们上传的图片传送到Gemini模型然后生成详细的文本，最后文本会被输入到Imagen 3中处理。

这样的过程就意味着Whisk的整个过程并非是复制图片，还是使用模型来提取整个图片的特征，然后根据特征再进行图片的融合和生成。

所以，我们对于Whisk的效果期待和其他的一般图生图工具，应该是完全不同的，整个过程也是一个全新的生成创意，这是让我最佩服的。

写在最后

我个人还是喜欢这种自成体系的更新，

Veo2、Imagen3和Whisk组成了谷歌在多模态领域的一条新的工作流。

光看着就很舒服，

不需要像openai那样，天天猜谜。

好好打磨一下作品，oai本身就是一个巨大的光环😇。

从最初 AI 工具开始盛行的时候，

我们就说，这即将是一个比拼创意的时代，

而在越来越多的更新中，我们能够感受到，

效果越来越稳定，越来越接近真实，

但是创意，

谷歌这次做到了。

@ 作者 / 卡尔 & 阿汤@ 动手学AI知识库 / learnprompt.pro

（文：卡尔的AI沃茨）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复