现在起，AI视频可以直接生成文字了！

「如果你与众不同，你就一定会孤独。」

—— 《美丽新世界》

万相2.1模型来了

今天下午，我好几个AI视频群都被万相2.1模型炸群了。

刚上新的万相2.1视频模型，可以直接生成文字，无论是中文、英文还是数字，都可以直接通过自然语言指令，生成文字特效视频。

比如这样。

提示词：以红色新年宣纸为背景，出现一滴水墨，晕染墨汁缓缓晕染开来。文字的笔画边缘模糊且自然，随着晕染的进行，水墨在纸上呈现“福”字，墨色从深到浅过渡，呈现出独特的东方韵味。背景高级简洁，杂志摄影感。

以及这样。

提示词：远景拍摄，塞纳河畔，绚烂的烟花在空中绽放，烟花形成了粉色数字“2025”时镜头拉近特写，然后逐渐消散。

或者这样。

提示词：电影片头，镜头缓缓推进，对焦逐渐由模糊到清晰，最终在一座神奇的古堡上空生成了“Alibaba”的英文字片头。（Case自@San-山雨）

卧槽，卧槽。AI视频又进步了。

实测8+领域、50+Case

话不多说，直接开测。一下午，我就测了50多个视频。

我把他们分成了8种风格：文字特效、复杂运动、科幻/特效、艺术表现、写实、人物/动物、动画、多人场景/大场面/多镜头，每个风格领域设计3~5个提示词，生成视频进行测评。

话不多说，我们来看看跑的Case吧。

Ps.以下Case全部由我自己生成，不含任何官方demo。

（1）文字特效

文字生成，是这次万相2.1模型独有的功能，是全球首个支持中英文、数字生成的视频模型。那我们就先来看看这块的表现。

1）在山谷的上空，漂浮着很多顶五颜六色的帽子，帽子上印着“AI”两个字母。

2）电影片头，镜头缓缓推进，对焦逐渐由模糊到清晰，最终在一座神奇的古堡上空生成了“Alibaba”的英文字片头。

3）logo视频，品牌设计，纯黑背景，3D立体展示“WoYin”logo。

4）广告创意片段，不同种类的水果组成“2025”数字。

基本上，指令遵循没有问题，无论是汉字、英文还是数字，都可以生成。如果我的提示词设计得更好一些，基本上可以赶上很多特效工作室的水平。

不得不说，AI视频又前进了好大一步。

（2）运动

运动，是视频模型技术最难的一部分。越是复杂的运动，越考验模型。

要想生成遵循物理规则的运动视频，需要模型对空间位置关系的理解，对不同物体受力变化、形态的处理，以及对不同物体、不同运动的语义理解，都要有相当深的技术，才能生成出模拟物理世界的视频。

5）暴风雪中，一列蒸汽火车在崎岖山间穿行，黑烟从车头直冲云霄，车厢在皑皑白雪中留下深邃轨迹，镜头以侧面追踪，捕捉机械巨兽破开风雪的磅礴气势，白雾与蒸汽交织成壮丽画卷，电影氛围，远景。

6）一辆汽车在被雪覆盖的公路上高速飞驰。镜头从空中俯拍，展现了公路两旁的树木和远处的山脉。汽车在笔直的道路上行驶，周围的雪地和树木形成了鲜明的对比。整个场景在自然光下显得格外清晰，具有纪录片风格的写实感。

7）在室内，镜头平拍一个外国男子跳霹雳舞的全景，男子身穿灰色的上衣和绿色的裤子，镜头随着男子的动作而移动，男子在舞台上进行一系列的翻滚和旋转动作，背景中可以看到观众席上的观众和一些模糊的舞台灯光，但焦点始终保持在舞者的动作上。

8）超大海水浪尖，冲浪者在浪尖起跳，完成空中转体。摄影机从海浪内部穿越而出，捕捉阳光透过海水的瞬间。水花在空中形成完美弧线，冲浪板划过水面留下轨迹。最后定格在冲浪者穿越水帘的完美瞬间。

从我跑的Case来看，万相2.1模型在运动的表现上非常稳定，即使是在大幅度的肢体运动和肢体旋转场景，也能够保持肢体协调，符合正常运动轨迹。

（3）科幻/特效

科幻风格，考验模型的数据集和泛化能力（指模型对新的、未见过的数据的表现能力），看它能否呈现出充满想象力的场景，比如光影变化、色彩变化、空间变化以及动作变化等。

为了更好的视觉体验，这部分我就主要放原视频，不放GIF图。

9）两个巨型机器人在城市中激战，每一次碰撞都产生冲击波，将附近的建筑物震碎成闪闪发光的碎片。

10）一艘银白色的星际飞船在深邃的宇宙中高速飞行，穿过由无数小行星组成的小行星带。

11）太阳爆炸，整个天空瞬间被染成了耀眼的橙红色，强烈的光芒和高温使得周围的空间都在扭曲变形。行星和卫星被爆炸冲击波扫过，化作无数碎片，四散飞舞。在这毁灭性的爆炸中，宇宙空间仿佛都被点燃，呈现出末日般的景象。

12）一条巨龙在一座燃烧的城市上空盘旋，火焰的余光映照在它的鳞片上，摄像机从下方仰视，捕捉到龙的身影在火焰和烟雾中若隐若现，它的翅膀在空中拍打，掀起狂风，将火焰吹向四面八方。

13）在一座破旧的仓库内部，突然发生一场爆炸，这次爆炸吞噬了一切，形成滚滚浓烟和火焰。

从测试来看，科幻这块，万相2.1模型相较之前的版本有了大幅优化，之前的万相视频确实是一言难尽……不过，在我测的过程中，依然会有零星的视频会出现画面慢放、PPT缩放的情况。

（4）艺术表现

艺术风格，主要考验模型对图形、空间、色彩和受力变化的理解，会比较抽象一些。从跑的Case来看，万相可以用来做一些不错的艺术视频。

14）一名男子在一片奇幻的海滩上踢球。背景是一片漂浮于天空的云海，层层云雾翻涌如梦似幻。男子身穿泛着流光溢彩的运动装，足球在他的脚下灵巧翻飞，动作如行云流水般优雅。周围隐约浮现出模糊的影影绰绰，仿佛是时光的倒影在奇幻空间中游弋。

15）一辆黄色赛车在漂浮于云端的高速赛道上疾驰。赛道蜿蜒延伸于无垠的白色云海之上，边缘用红白相间的警示带清晰标识，增添了视觉的张力。赛车的流线型车身在阳光下反射出金属光泽，轮胎激起云雾般的涟漪，伴随着每一次转弯，轨迹仿佛在空中留下淡淡的光痕。镜头采用跟拍方式，精准捕捉赛车快速转向与直线加速的细节，整体画面兼具动态感与超现实的梦幻效果。

16）鲜艳颜色渐变融合，重叠成半透明几何图形，缓慢旋转。

17）摇摄镜头，明亮的彩色粒子旋转，汇聚成抽象的形态。

（5）写实

写实风格，主要看模型对不同场景、人物表情、人物动作、纹理细节以及光影变化的生成效果，看他们是否与真实世界保持一致。

这一块，主要考验模型的数据集，看它训练了哪些数据。

18）在故宫红墙前的树枝上，有一只喜鹊在觅食。背景是被雪覆盖的红墙，增添了画面的静谧美感。喜鹊在树枝间灵活移动，偶尔停留观察四周。整个场景通过固定镜头拍摄，呈现出一种宁静而写实的风格，细致地捕捉了冬日中的自然景象。

19）45度俯视固定镜头，中景，浅景深，晨光穿过梧桐斑驳洒落。画面中央的橘猫穿着围裙，稳稳举刀切黄瓜，尾巴随着切菜节奏轻晃。背景灶台炊烟缭绕上升，阳光斜射在木案与老铁锅上泛起温暖光晕。

20）特写镜头聚焦于一双布满老茧的手，正细致地在木头上雕刻。手握刻刀，刀锋在飞舞的木屑中闪烁，木纹清晰，指尖轻盈游走在刀刃间，勾勒出精致的花纹与图案。背景虚化，仅见工作台与散落的木工工具，强调手部精妙动作与匠艺之精髓。

从我测的多个模型来看，万相算是橘猫切黄瓜切得比较好的模型了。只是环境和氛围似乎与我提示词的描述不符，这是城乡结合部的橘猫吧

。

我又生成了一次，环境和氛围变了，与指令相符。但是这口锅怎么回事，还是很落魄啊。不过，橘猫的刀法还是一如既往的稳。

（6）人物

人物，主要看模型对人的肤色、年龄、手指、肢体动作、表情动作以及衣着呈现的真实性，是我们作为人类最容易识别出AI真假的地方。

21）特写镜头，一个穿着黄色上衣的中国小男孩，面对镜头，在一个暖色调的房间里，全神贯注地组装积木。

22）一位女性特写镜头：起初她在笑，随后变得悲伤，接着开始哭泣，最后用双手捂住脸。

没能演绎出从笑到哭的转变，但是对哭的演绎还是非常到位的，这演技秒杀90%的流量小生。

23）一名欧洲男子惊恐地抬头望着远方，背景是一座正在燃烧和爆炸的城市，乌云遮住了天空。镜头对准男子的脸，捕捉到他惊恐的表情，他睁大眼睛，看向远方。

24）一名女子身穿印花泳衣，站在泳池中戏水。她用双手拍打水面，水花四溅，显得轻松愉悦。背景中可以看到泳池的蓝色瓷砖和周围的树木，环境清新自然。整个视频采用固定镜头拍摄，画面清晰，风格写实，展现了一个轻松的夏日场景。

人物风格这块，通义万相的表现中规中矩，我测的Case中没有出现特别离谱的画面。这对于AI视频来说，没有问题其实就是进步了。

（7）动画

动画，主要看模型对各种风格的支持和审美，比如2D、3D、矢量、黏土、水墨、宫崎骏、迪士尼等。

25）大熊猫在超市里拖地，结果拖把洒出好多五颜六色的粉末，接着把粉末洒向镜头前，镜头随之穿过粉末。

26）跟踪镜头，幻想动漫风格。一位勇敢的少女战士，手持发光的宝剑，跑过一片森林。森林里是神话生物和古老遗迹，氛围史诗且冒险。

（8）多人场景/大场面/多镜头

多人场景，涉及多人物动作协调和推理成本问题，基本上很多视频模型都会崩，包括Gen3、Sora等。我们看看万相表现如何。

27）中世纪的古战场，一只巨龙在空中翱翔，巨龙身披鳞片，颜色各异，五彩斑斓。巨龙怒目圆睁，对着下面的魔兽大军喷吐火焰，场面震撼。魔兽大军身穿铠甲，挥舞着武器，与巨龙展开激烈的战斗。整个场景在昏暗的天空下进行，背景是一片荒凉的战场，弥漫着硝烟和尘土。视频采用固定镜头拍摄，画面清晰，具有历史战争片风格，展现了中世纪战争的恢弘场面和巨龙的强大威力。

28）黎明时分，中世纪风格，两支大军正在混战。

29）镜头从骑着马的骑士的脚步局部特写开始缓缓上升，最终拍摄到骑士的面部，骑士面带坚毅的表情看向前方。背景是一个中世纪战场，两军正在交战，人仰马翻。

30）这是一个城市末日废墟的场景，色调偏暗，以灰色和棕色为主，营造出一种荒凉、破败的氛围。画面中央是一条笔直的公路，一辆跑车在道路上高速行驶，道路两侧是残破的建筑、废弃的车辆和垃圾、碎片，远处有几栋高耸入云的大楼，天空被厚重的云层覆盖，光线昏暗。

31）冬日夜晚，镜头聚焦在一个十字路口。雪花纷纷扬扬地飘落，给这座城市披上了一层洁白的外衣。行人们穿着厚厚的冬装，在风雪中走过十字路口。镜头缓缓推进，捕捉到一群行人正踩着积雪，走过十字路口。行人的呼吸在冷空气中凝结成雾气，与飘落的雪花交织在一起。整个场景充满了动感与生命力。

以上所有Case，我的好基友@Pp 帮我剪了一支VCR，欢迎观看：

写在最后

整体来看，万相2.1模型确实有比较大的升级，特别是相对于它之前的自己。

所以，在我们最新的AI视频推荐榜上，也给到四星推荐。

在复杂运动、物理遵循、艺术表现以及科幻呈现上，通义万相可以跻身第一梯队了。而且，它还有自己的独门绝活——文字生成。

体验路径：

https://tongyi.aliyun.com/wanxiang

这个功能非常实用，可用于日常广告设计、短视频、片头特效等视频制作中。

其实，万相2.1不只更新了文生视频模型，它还上新了文生图模型——支持「文生组图」，就像写电影分镜一样生成多张剧情连贯的系列图。

提示词：浪漫的公园里，一对青年男女在温馨的拥抱交谈

有点意思，通义万相这下是要在AI创作上“一键到底”了。据通义万相算法工程师兔狲介绍，他们采用了IC-LoRA图像生成训练方法，基于VAE和DiT架构，有效增强了文本到图像的上下文能力。

所以，万相2.1模型，这就一并带着文生视频和文生组图一起来了。

Ps.留言有福利，评论区抽 5 位用户送通义2025年定制AI日历~

（文：沃垠AI）

2025 年 7 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复