—— 《美丽新世界》
今天下午,我好几个AI视频群都被万相2.1模型炸群了。
刚上新的万相2.1视频模型,可以直接生成文字,无论是中文、英文还是数字,都可以直接通过自然语言指令,生成文字特效视频。
提示词:以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画边缘模糊且自然,随着晕染的进行,水墨在纸上呈现“福”字,墨色从深到浅过渡,呈现出独特的东方韵味。背景高级简洁,杂志摄影感。
提示词:远景拍摄,塞纳河畔,绚烂的烟花在空中绽放,烟花形成了粉色数字“2025”时镜头拉近特写,然后逐渐消散。
提示词:电影片头,镜头缓缓推进,对焦逐渐由模糊到清晰,最终在一座神奇的古堡上空生成了“Alibaba”的英文字片头。(Case自@San-山雨)
卧槽,卧槽。AI视频又进步了。
话不多说,直接开测。一下午,我就测了50多个视频。
我把他们分成了8种风格:文字特效、复杂运动、科幻/特效、艺术表现、写实、人物/动物、动画、多人场景/大场面/多镜头,每个风格领域设计3~5个提示词,生成视频进行测评。
Ps.以下Case全部由我自己生成,不含任何官方demo。
文字生成,是这次万相2.1模型独有的功能,是全球首个支持中英文、数字生成的视频模型。那我们就先来看看这块的表现。
1)在山谷的上空,漂浮着很多顶五颜六色的帽子,帽子上印着“AI”两个字母。
2)电影片头,镜头缓缓推进,对焦逐渐由模糊到清晰,最终在一座神奇的古堡上空生成了“Alibaba”的英文字片头。
3)logo视频,品牌设计,纯黑背景,3D立体展示“WoYin”logo。
4)广告创意片段,不同种类的水果组成“2025”数字。
基本上,指令遵循没有问题,无论是汉字、英文还是数字,都可以生成。如果我的提示词设计得更好一些,基本上可以赶上很多特效工作室的水平。
运动,是视频模型技术最难的一部分。越是复杂的运动,越考验模型。
要想生成遵循物理规则的运动视频,需要模型对空间位置关系的理解,对不同物体受力变化、形态的处理,以及对不同物体、不同运动的语义理解,都要有相当深的技术,才能生成出模拟物理世界的视频。
5)暴风雪中,一列蒸汽火车在崎岖山间穿行,黑烟从车头直冲云霄,车厢在皑皑白雪中留下深邃轨迹,镜头以侧面追踪,捕捉机械巨兽破开风雪的磅礴气势,白雾与蒸汽交织成壮丽画卷,电影氛围,远景。
6)一辆汽车在被雪覆盖的公路上高速飞驰。镜头从空中俯拍,展现了公路两旁的树木和远处的山脉。汽车在笔直的道路上行驶,周围的雪地和树木形成了鲜明的对比。整个场景在自然光下显得格外清晰,具有纪录片风格的写实感。
7)在室内,镜头平拍一个外国男子跳霹雳舞的全景,男子身穿灰色的上衣和绿色的裤子,镜头随着男子的动作而移动,男子在舞台上进行一系列的翻滚和旋转动作,背景中可以看到观众席上的观众和一些模糊的舞台灯光,但焦点始终保持在舞者的动作上。
8)超大海水浪尖,冲浪者在浪尖起跳,完成空中转体。摄影机从海浪内部穿越而出,捕捉阳光透过海水的瞬间。水花在空中形成完美弧线,冲浪板划过水面留下轨迹。最后定格在冲浪者穿越水帘的完美瞬间。
从我跑的Case来看,万相2.1模型在运动的表现上非常稳定,即使是在大幅度的肢体运动和肢体旋转场景,也能够保持肢体协调,符合正常运动轨迹。
科幻风格,考验模型的数据集和泛化能力(指模型对新的、未见过的数据的表现能力),看它能否呈现出充满想象力的场景,比如光影变化、色彩变化、空间变化以及动作变化等。
为了更好的视觉体验,这部分我就主要放原视频,不放GIF图。
9)两个巨型机器人在城市中激战,每一次碰撞都产生冲击波,将附近的建筑物震碎成闪闪发光的碎片。
10)一艘银白色的星际飞船在深邃的宇宙中高速飞行,穿过由无数小行星组成的小行星带。
11)太阳爆炸,整个天空瞬间被染成了耀眼的橙红色,强烈的光芒和高温使得周围的空间都在扭曲变形。行星和卫星被爆炸冲击波扫过,化作无数碎片,四散飞舞。在这毁灭性的爆炸中,宇宙空间仿佛都被点燃,呈现出末日般的景象。
12)一条巨龙在一座燃烧的城市上空盘旋,火焰的余光映照在它的鳞片上,摄像机从下方仰视,捕捉到龙的身影在火焰和烟雾中若隐若现,它的翅膀在空中拍打,掀起狂风,将火焰吹向四面八方。
13)在一座破旧的仓库内部,突然发生一场爆炸,这次爆炸吞噬了一切,形成滚滚浓烟和火焰。
从测试来看,科幻这块,万相2.1模型相较之前的版本有了大幅优化,之前的万相视频确实是一言难尽……不过,在我测的过程中,依然会有零星的视频会出现画面慢放、PPT缩放的情况。
艺术风格,主要考验模型对图形、空间、色彩和受力变化的理解,会比较抽象一些。从跑的Case来看,万相可以用来做一些不错的艺术视频。
14)一名男子在一片奇幻的海滩上踢球。背景是一片漂浮于天空的云海,层层云雾翻涌如梦似幻。男子身穿泛着流光溢彩的运动装,足球在他的脚下灵巧翻飞,动作如行云流水般优雅。周围隐约浮现出模糊的影影绰绰,仿佛是时光的倒影在奇幻空间中游弋。
15)一辆黄色赛车在漂浮于云端的高速赛道上疾驰。赛道蜿蜒延伸于无垠的白色云海之上,边缘用红白相间的警示带清晰标识,增添了视觉的张力。赛车的流线型车身在阳光下反射出金属光泽,轮胎激起云雾般的涟漪,伴随着每一次转弯,轨迹仿佛在空中留下淡淡的光痕。镜头采用跟拍方式,精准捕捉赛车快速转向与直线加速的细节,整体画面兼具动态感与超现实的梦幻效果。
16)鲜艳颜色渐变融合,重叠成半透明几何图形,缓慢旋转。
17)摇摄镜头,明亮的彩色粒子旋转,汇聚成抽象的形态。
写实风格,主要看模型对不同场景、人物表情、人物动作、纹理细节以及光影变化的生成效果,看他们是否与真实世界保持一致。
这一块,主要考验模型的数据集,看它训练了哪些数据。
18)在故宫红墙前的树枝上,有一只喜鹊在觅食。背景是被雪覆盖的红墙,增添了画面的静谧美感。喜鹊在树枝间灵活移动,偶尔停留观察四周。整个场景通过固定镜头拍摄,呈现出一种宁静而写实的风格,细致地捕捉了冬日中的自然景象。
19)45度俯视固定镜头,中景,浅景深,晨光穿过梧桐斑驳洒落。画面中央的橘猫穿着围裙,稳稳举刀切黄瓜,尾巴随着切菜节奏轻晃。背景灶台炊烟缭绕上升,阳光斜射在木案与老铁锅上泛起温暖光晕。
20)特写镜头聚焦于一双布满老茧的手,正细致地在木头上雕刻。手握刻刀,刀锋在飞舞的木屑中闪烁,木纹清晰,指尖轻盈游走在刀刃间,勾勒出精致的花纹与图案。背景虚化,仅见工作台与散落的木工工具,强调手部精妙动作与匠艺之精髓。
从我测的多个模型来看,万相算是橘猫切黄瓜切得比较好的模型了。只是环境和氛围似乎与我提示词的描述不符,这是城乡结合部的橘猫吧。
我又生成了一次,环境和氛围变了,与指令相符。但是这口锅怎么回事,还是很落魄啊。不过,橘猫的刀法还是一如既往的稳。
人物,主要看模型对人的肤色、年龄、手指、肢体动作、表情动作以及衣着呈现的真实性,是我们作为人类最容易识别出AI真假的地方。
21)特写镜头,一个穿着黄色上衣的中国小男孩,面对镜头,在一个暖色调的房间里,全神贯注地组装积木。
22)一位女性特写镜头:起初她在笑,随后变得悲伤,接着开始哭泣,最后用双手捂住脸。
没能演绎出从笑到哭的转变,但是对哭的演绎还是非常到位的,这演技秒杀90%的流量小生。
23)一名欧洲男子惊恐地抬头望着远方,背景是一座正在燃烧和爆炸的城市,乌云遮住了天空。镜头对准男子的脸,捕捉到他惊恐的表情,他睁大眼睛,看向远方。
24)一名女子身穿印花泳衣,站在泳池中戏水。她用双手拍打水面,水花四溅,显得轻松愉悦。背景中可以看到泳池的蓝色瓷砖和周围的树木,环境清新自然。整个视频采用固定镜头拍摄,画面清晰,风格写实,展现了一个轻松的夏日场景。
人物风格这块,通义万相的表现中规中矩,我测的Case中没有出现特别离谱的画面。这对于AI视频来说,没有问题其实就是进步了。
动画,主要看模型对各种风格的支持和审美,比如2D、3D、矢量、黏土、水墨、宫崎骏、迪士尼等。
25)大熊猫在超市里拖地,结果拖把洒出好多五颜六色的粉末,接着把粉末洒向镜头前,镜头随之穿过粉末。
26)跟踪镜头,幻想动漫风格。一位勇敢的少女战士,手持发光的宝剑,跑过一片森林。森林里是神话生物和古老遗迹,氛围史诗且冒险。
多人场景,涉及多人物动作协调和推理成本问题,基本上很多视频模型都会崩,包括Gen3、Sora等。我们看看万相表现如何。
27)中世纪的古战场,一只巨龙在空中翱翔,巨龙身披鳞片,颜色各异,五彩斑斓。巨龙怒目圆睁,对着下面的魔兽大军喷吐火焰,场面震撼。魔兽大军身穿铠甲,挥舞着武器,与巨龙展开激烈的战斗。整个场景在昏暗的天空下进行,背景是一片荒凉的战场,弥漫着硝烟和尘土。视频采用固定镜头拍摄,画面清晰,具有历史战争片风格,展现了中世纪战争的恢弘场面和巨龙的强大威力。
29)镜头从骑着马的骑士的脚步局部特写开始缓缓上升,最终拍摄到骑士的面部,骑士面带坚毅的表情看向前方。背景是一个中世纪战场,两军正在交战,人仰马翻。
30)这是一个城市末日废墟的场景,色调偏暗,以灰色和棕色为主,营造出一种荒凉、破败的氛围。画面中央是一条笔直的公路,一辆跑车在道路上高速行驶,道路两侧是残破的建筑、废弃的车辆和垃圾、碎片,远处有几栋高耸入云的大楼,天空被厚重的云层覆盖,光线昏暗。
31)冬日夜晚,镜头聚焦在一个十字路口。雪花纷纷扬扬地飘落,给这座城市披上了一层洁白的外衣。行人们穿着厚厚的冬装,在风雪中走过十字路口。镜头缓缓推进,捕捉到一群行人正踩着积雪,走过十字路口。行人的呼吸在冷空气中凝结成雾气,与飘落的雪花交织在一起。整个场景充满了动感与生命力。
以上所有Case,我的好基友@Pp 帮我剪了一支VCR,欢迎观看:
整体来看,万相2.1模型确实有比较大的升级,特别是相对于它之前的自己。
所以,在我们最新的AI视频推荐榜上,也给到四星推荐。
在复杂运动、物理遵循、艺术表现以及科幻呈现上,通义万相可以跻身第一梯队了。而且,它还有自己的独门绝活——文字生成。
体验路径:
https://tongyi.aliyun.com/wanxiang
这个功能非常实用,可用于日常广告设计、短视频、片头特效等视频制作中。
其实,万相2.1不只更新了文生视频模型,它还上新了文生图模型——支持「文生组图」,就像写电影分镜一样生成多张剧情连贯的系列图。
提示词:浪漫的公园里,一对青年男女在温馨的拥抱交谈
有点意思,通义万相这下是要在AI创作上“一键到底”了。据通义万相算法工程师兔狲介绍,他们采用了IC-LoRA图像生成训练方法,基于VAE和DiT架构,有效增强了文本到图像的上下文能力。
所以,万相2.1模型,这就一并带着文生视频和文生组图一起来了。
Ps.留言有福利,评论区抽 5 位用户送通义2025年定制AI日历~
(文:沃垠AI)