通义万相2.1全面开源,登顶AI视频榜单VBench,实测PK可灵

作者沐风

来源AI先锋官

2月25日晚间,阿里旗下的通义万相2.1视频生成模型基于Apache2.0协议,全面开源14B和1.3B两个参数规格的推理代码和权重,同时支持文生视频和图生视频任务。


资料显示,阿里云从2023年开始就坚定大模型开源路线,其千问(Qwen)衍生模型数量已超过10万个。

随着万相的开源,阿里云实现了全模态、全尺寸大模型的开源。

值得一提的是,在今年1月份阿里云才刚刚宣布推出万相2.1版本模型。

在视频生成方面,万相2.1通过自研的高效VAE和DiT架构增强了时空上下文建模能力,支持无限长1080P视频的高效编解码,首次实现了中文文字视频生成功能。

在DiT的设计中,全新通义万相使用时空全注意机制,让模型能够更准确地模拟现实世界的复杂动态;团队还引入了参数共享机制,不仅提升了模型的性能,还有效降低了训练成本。

此外,针对文本的嵌入进行优化,实现更优的文本可控性的同时也减少了计算需求。

在VAE方面,通义万相设计了一种创新的视频编解码方案,通过将视频拆分成若干块(Chunk)并缓存中间特征的方式,代替直接对长视频的E2E编解码过程,实现显存的使用与原始视频长度无关,从而能够支持无限长1080P视频的高效编解码,这一关键技术为任意时长视频的训练提供了新的路径。

同时,万相2.1还登上了VBench榜单第一名。

VBench是视频生成领域的权威评测集,它一共有16个评分维度,从整体一致性、动作流畅度、画面稳定性等方面对模型进行全方位评估。

根据VBench评测榜单显示,万相2.1在运动幅度、多对象生成、空间关系等关键能力上拿下最高分,总分84.7%。


排名超越混元、海螺AI、Gen3、Pika等国内外视频生成模型。

既然如此,不如就让万相2.1与我们的老朋友“可灵”PK一下。

万相2.1分为两个版本,分别为“极速版”和“专业版”,极速版生成视频速度更快,而专业版生成的视频品质更高,只不过速度是相当的慢,一个视频大概要3个小时组左右才能生成。


小编选择的是万相2.1极速版。
-1-
提示词:固定镜头,卡皮巴拉用刀切鱼,第一刀切下去,鱼头鱼身被一刀两段,接着第二刀把鱼身切成块,动作丝滑连贯不卡顿,不变形,不绷溃。

万相2.1

可灵AI

很明显它俩都不知道“卡皮巴拉”到底是什么,但相比较,可灵AI比万相2.1对提示词的理解也只是稍微好了一点点,虽然万相2.1并没有切对地方,但是最起码切下来了,反观可灵AI,它却切了个寂寞。

不过别着急,我们再来一个。
-2-
提示词:一只橙色小猫,穿着它的小黄雨衣和靴子,正像普通顾客一样坐在一家舒适的咖啡馆里的小椅子上,它面前的一小杯热牛奶冒着热气,它的小伞斜靠在桌子上。透过咖啡馆的窗户,雨滴在玻璃上划出一道道痕迹,外面的城市灯火通明。这只猫漫不经心地瞥了一眼摊在桌上的报纸,假装在读,而其他顾客则偷偷地饶有兴趣地打量着这只异常的小猫。

万相2.1

可灵AI


在万相2.1生成的视频中除了未生成雨伞和其他顾客外基本符合提示词,只不过画面略微显得有些僵硬。

可灵AI则未生成牛奶、雨伞,有一个小细节,视频中的玻璃上还倒映出了小猫的影子,只不过倒影中小猫生成的似乎并不正确。

-3-
提示词:高质量的视频作品,汽车在沙漠中疾驰,镜头由远到近

万相2.1

可灵AI


可以看出来,万相2.1确实是按照提示词生成的,但他并没有像可灵AI一样考虑到在物理效果,而可灵AI又并没有做到提示词中的运镜效果。

可以说,它俩真是半斤对八两,不分上下。


-4-
提示词:逆光拍摄冰瀑透出朝阳金芒,特写镜头记录冰棱尖端融水滴落的慢动作,Phantom TMX 7510 8K超高速摄影。

万相2.1

可灵AI


万相2.1和可灵AI的视频简直截然相反,万相2.1视频中的水滴像是静止了一样,而可灵AI视频中又像水龙头一样流个不停。

与之相比,小编还是更喜欢万相2.1生成的视频。


-5-
提示词:平拍一位女性花样滑冰运动员在冰场上进行表演的全景。她穿着紫色的滑冰服,脚踩白色的滑冰鞋,正在进行一个旋转动作。她的手臂张开,身体向后倾斜。
万相2.1

可灵AI


可以看到,万相2.1视频中的运动员出现了崩坏的现象,可灵AI的运动员虽然动作并未按照提示词进行,但整体画面来看还是不错的。

小编又用万相2.1专业版生成了一版。

漫长的3小时过后……



相比极速版,专业版更能精准理解语义,同时也能保持肢体协调并符合正常运动轨迹,但仔细看还有会有些许瑕疵。

总体下来,万相2.1极速版的生成速度要比可灵AI更快,更加遵循提示词,但在物理规律上稍逊可灵AI。

目前万相2.1已全面开放,用户可在通义万相官网直接免费使用,全球开发者也可在Github、HuggingFace和魔搭社区下载其开源模型体验。

 

(文:AI先锋官)

欢迎分享

发表评论