对比测试可灵1.5 ,及PK Veo2,可灵1.6物理规律、语义理解等能力皆大幅提升

作者沐风

来源AI先锋官

此前,谷歌DeepMind前脚宣布其将要推出的第二代视频生成模型Veo2在盲测评分上超越了可灵1.5。


相关阅读:Sora发布即翻车,谷歌Veo2偷塔AI视频新王?)


后脚快手就宣布可灵AI基座模型再升级,推出可灵1.6模型。

并且已经全量上线了。

据快手官方介绍,可灵1.6模型在文本响应度、画面美感及运动合理性上均有明显提升,画面更稳定更生动,对运动、时序类动作、运镜等文字描述响应更好。

别看只是涨了0.1的版本,但是,其模型能力是摆在那的。

值得一提的是,1.6的使用价格与1.5一样,并没有变化,5s的高品质视频都是35灵感一条。

废话不多说,小编就先用谷歌Veo2最火的几个视频和可灵1.6进行对比。

-1-

Veo2

可灵1.6

-2-
Veo2
可灵1.6

-3-
Veo2
可灵1.6

-4-

Veo2

可灵1.6


呦呵,有点东西,1.6与Veo2感觉有种旗鼓相当的感觉。

那么,接下来,小编将从物理世界、人物动作、复杂场景3个方面让它与1.5进行下对比,更直观的看看它与1.5的区别到底在哪。


物理世界

提示词:厨师正在切一块牛排。

可灵1.5
可灵1.6

在1.5的视频中怎么感觉这个牛排这么粘刀呢,而且根本没有切下来好不好。

反观1.6则做的更好,牛肉被完美的切落,也能明显感觉到肉的韧性,只不过这个肉切被下来之后变得好Q弹。
提示词:一个空水瓶下落到水面上。

可灵1.5
可灵1.6

这个就更不用说了,在1.5的视频中水瓶还没落下水花就已经开始“蠢蠢欲动”了。

1.6相较于1.5要好的多,水瓶在接触水面时才激起水花,只不过瓶子有些变形,有一个小细节,它再接进入水面后,水也流进了瓶子里。


人物动作

提示词:公园里一个老爷爷在打太极


可灵1.5

可灵1.6


总体来说没有太大区别,但都有一个通病,就是手部处理不是很好,会出现模糊崩坏的情况。


再上点难度,试试被誉为AI视频界图灵测试的体操。

可灵1.5


可灵1.6


呃……不出所料,1.6中最左边的选手就这么水灵灵的消失了,1.5就更不用说了。



复杂场景

提示词:镜头以缓慢的推拉镜头移动,揭示了文艺复兴时期宫殿房间的富丽堂皇,里面装饰着镶金家具、天鹅绒窗帘和投射柔和、闪烁光线的枝形吊灯。一位女王一动不动地坐在镀金的桌子前,她深红色的丝绸礼服像溅出的鲜血一样落在地板上。桌上放着一封未签名的信,信的边缘因岁月而卷曲。摄像机从后面对她进行了构图,在一面巨大而华丽的镜子中捕捉了她坚忍的脸庞的倒影。在背景中,朝臣们喃喃自语,他们的身影在烛光下像幽灵一样跳舞。房间感觉很沉重,每一个镀金细节都放大了背叛和偏执的气氛。调色板在深沉、富丽堂皇的红色和冷金色之间交替,明暗对比的灯光增强了戏剧性。以 70 毫米胶片拍摄,质感丰富,让人联想到历史杰作的宏伟。

可灵1.5

可灵1.6

两个版本均未体现出提示词里的“镜子中捕捉了她坚忍的脸庞的倒影”,但两者进行比较,还是1.6更胜一筹,1.5中的背景人物杂乱无章,而且崩坏较为严重。

不难看出,此次升级可灵1.6相较于1.5,其在物理规律、真实感、复杂场景、语义理解上都有大幅提升。

值得一提的是,可灵1.6在图生视频方面也有巨大的进步。

例如:《楚门的世界》经典的结尾画面。


这张图的运动趋势很明显,就是让人走上台阶。但是墙壁上的影子,以及在电影剧情中楚门略带试探的动作,对AI视频来说都是难点。

提示词:男人有些犹豫和试探地伸出手扶着墙壁,然后一步一步走上台阶,抬头张望。

可灵1.5
可灵1.6

可灵1.6没有让人失望,但1.5视频中墙壁上的影子微微有些怪异。

不得不感叹,AI视频发展的真的太快了。

不只是可灵,而是整个行业。

今年年初的AI还只是能做两三秒的崩坏视频,而如今生成的视频越来越接近物理世界。

数据显示,自今年6月6日发布以来,可灵AI已进行数次迭代和升级,目前已拥有超过600万用户,累计生成超6500万个视频和超1.75亿张图片。


 

(文:AI先锋官)

欢迎分享

发表评论