AI视频终于可以生成中文了!
Prompt:以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画边缘模糊且自然,随着晕染的进行,水墨在纸上呈现“福”字,墨色从深到浅过渡,呈现出独特的东方韵味。背景高级简洁,杂志摄影感。
就在昨天,阿里云通义万相宣布升级,其中视频生成模型升级至2.1,在大幅度复杂运动、现实物理规律还原、影视质感与艺术风格、文字生成和视频特效等方面全面提升,并登顶VBench测评榜单,超越了海螺AI、混元、Gen3、Pika等模型。
上线不到4个月,通义万相打响了新年AI视频第一炮。
目前,通义万相视频生成模型已全面开放,你可以在通义万相官网(https://tongyi.aliyun.com/wanxiang/videoCreation)直接免费使用,个人开发者和企业用户还可以在阿里云百炼调用通义万相API体验。
“AI新榜”曾测评过通义万相,它在中式元素、复杂语义理解等方面表现不错,还能一键配上视频音效。这次升级,通义又有哪些惊喜?生成中文的效果真的能打吗?以下是我们的实测。
通义万相AI视频实测,能跳街舞、写中文、风格更多元
背靠阿里,通义万相的免费体验额度比较宽裕,在通义App的“频道”页面选择文生视频,即可免费使用最新的2.1模型。
而通义万相网页端每日签到可获取50点灵感值,选择文生视频2.1专业模型,一次生成耗费5点,相当于每天可免费生成10个视频。目前生成速度大概需要等待5~15分钟,可同时生成多条视频。
给生成的视频点个“赞”或“踩”的反馈,还可以额外获得5点灵感值。
本次我们的测评主要针对此次升级的文生视频能力:
1. 复杂人物运动
提示词:一个帅气的男生在舞台上表演hiphop舞蹈,气氛热烈,镜头围绕着他旋转,最后以地板动作定格。
通义万相的整体运动非常流畅,做出了复杂的地板动作,只有最后人物肩部运动有些奇怪。
大幅度的人物运动一直是AI视频的短板,生成的效果不是四肢扭曲,就是动作幅度太小,但通义这回真的进步了,不信我们用相同的提示词对比一下其他国产AI视频产品,通义的完成度是最高的。
海螺AI视频
可灵AI 1.6
即梦AI S2.0 Pro
提示词:一位身穿鲜艳滑雪服的女生正在滑雪,她弯腰屈膝,双臂自然摆动,脚下的滑雪板在雪地上划出两条清晰的轨迹,镜头追踪。背景是一片广阔的雪山风光,阳光洒在雪面上,闪烁着耀眼的光芒。
这两条人物滑雪的视频运动幅度很大,变化也比较流畅,我们还能看到被扬起的雪花,以及滑雪板在雪地上划出的轨迹。
2. 现实物理规律
提示词:一个戴眼镜的中国男孩在快餐店内吃着美味的芝士汉堡,闭眼享受的表情。
小男孩大口吃着汉堡,咬下和咀嚼食物的动作很逼真,嘴角甚至沾上了番茄酱汁。
提示词:新年之夜的璀璨烟花在深邃的夜空中绽放,一对情侣肩并肩抬头仰望烟花。
可以看到,烟花绽放的动态效果还算真实,右下角还可以看到烟花在水面的倒映,人物的动作和神态也比较自然,但两人牵着的手存在扭曲变形。
提示词:两名宇航员在月球表面漫步,背景是一片浩瀚的宇宙星空,点缀着璀璨的星辰,远处的地球悬挂在天际。
在太空中的运动幅度比地球上的更慢,穿着太空服的宇航员走路姿势自然,符合物理规律。
3. 中英文视频特效
提示词:镜头缓缓推近,一面昏暗的墙上有一个灯箱闪烁了几次,然后亮起文字“AI新榜”,发出彩色的灯光,赛博朋克风格。
厉害的来了,我们尝试生成“AI新榜”,中英文字组合,通义万相真的完整生成了,不过第一次镜头运动没跟上,第二次有运镜了,但“榜”字笔画有错误。可见,目前AI视频生成中文依然有难度。
相比其他AI视频模型,一般简单的英文基本都可以支持生成,但在中文生成这方面都不太行,通义万相还是独一份的优势。
海螺AI视频
可灵AI 1.6
即梦AI S2.0 Pro
提示词:一个带着红色围巾的女孩在厚厚的雪地里用树枝划出文字“2025”,镜头从女孩侧面拍摄,从女孩脸部切换到雪地特写,冬日,晴天。
用AI在雪地里写“2025”也不是难事了,就是女孩前面缺少弯腰写字的动作,直挺挺地站着显得奇怪。
提示词:一只戴着墨镜的蛇面对着镜头站着,露出开朗的笑容,然后伸手拿出一个红包,镜头从蛇聚焦到红包,红包上写着文字“恭喜发财”,可爱,3D卡通,9:16
“恭喜发财,红包拿来”,墨镜蛇这一套丝滑的拜年动作大家觉得怎么样?
提示词:文字“饱”造型的气球被充满了气,变得膨胀立体,写实风格,视频特效
有了中文生成能力,AI视频特效可以发挥的空间更大了,比如一个“饱”字造型的气球,是真的气饱了😀。
4. 影视质感与艺术风格
提示词:视频展示了一个小猫模特在聚光灯下的T型台上优雅行走,它的步伐轻盈,尾巴高高翘起,显得自信而从容。舞台背景简约,突出小猫的每一个动作和表情。观众席上的笑声和掌声此起彼伏,展现出这场别开生面的宠物时装秀的欢乐氛围。小猫时而停下,摆出可爱的pose,仿佛在享受属于它的时尚时刻。
这段小猫模特的提示词使用了“智能扩写”功能,我们拿3个月前生成的视频进行对比,可以明显看到升级后的质感更真实了,猫步走得很自然,小猫的毛发细节也更加清晰了。
升级后
升级前
提示词:一只狸花猫装扮成超级英雄,正从城市上空飞过,美式动漫风格
通义万相的整体风格还是偏写实,不过猫猫超人的装扮十分完美,还真的是狸花猫。
提示词:皮克斯动画风格,全景,夜空中有一轮巨大的圆月,圣诞老人骑着驯鹿的剪影在月亮上从右往左经过,然后夜空中出现星星组成的文字“Merry Christmas”,画面下方是居民区,屋顶覆盖着积雪,圣诞氛围。
前不久我们重制了一条AI圣诞动画,这是其中一个比较复杂的镜头,当时我们试了好多产品都达不到理想的效果,没想到通义万相的文生视频已经基本符合要求了,非常惊艳。
提示词:枯藤老树昏鸦,小桥流水人家,古道西风瘦马。夕阳西下,断肠人在天涯。
国风元素依旧是通义万相的拿手好戏,这个画面有种国风3D动画的效果,视频配音虽有鸟叫声,但不是乌鸦,希望继续优化改进。
全新技术架构,通义打响AI视频开年第一炮
为什么通义万相能实现这么复杂的物理运动和中文生成?
据介绍,通义万相团队采用自研高效的VAE和DiT架构,有效增强时空上下文关系建模能力。
在DiT的设计中,全新通义万相使用时空全注意机制,这一机制让模型能够更准确地模拟现实世界的复杂动态;团队还引入了参数共享机制,不仅提升了模型的性能,还有效降低了训练成本;此外,针对文本的嵌入进行优化,实现更优的文本可控性的同时也减少了计算需求。
在视频VAE方面,通义万相设计了一种创新的视频编解码方案。通过将视频拆分成若干块(Chunk)并缓存中间特征的方式,代替直接对长视频的E2E编解码过程,实现显存的使用与原始视频长度无关,从而能够支持无限长1080P视频的高效编解码,这一关键技术为任意时长视频的训练提供了新的路径。
因此,在全新架构下,通义万相在大幅度的肢体运动和肢体旋转场景的视频生成上表现更稳定,即便是花样滑冰、游泳、跳水等运动视频也能保持肢体协调并符合正常运动轨迹。
对于视频中的文字生成,通义万相是首个支持中文文字生成能力、且同时支持中英文文字特效生成的视频生成模型,可应用于广告设计、短视频等领域内容创作。
除了视频生成模型之外,通义万相2.1还升级了文生图能力,上线了四格漫画、情侣头像、电影分镜等创意模板,支持一键生成组图,一致性表现也不错。
图像和视频生成依旧是2025年AI行业的热门赛道。在视频生成领域,我们看到国内玩家还是相对领先的,各个产品的更新迭代很快,在通义万相宣布升级后,海螺AI视频今天上线了“主体一致性功能”,只上传一张照片就能精准还原人物面部特征和视觉细节。
新的一年,你期待AI视频有哪些功能创新呢?最看好哪一个产品呢?欢迎在评论区交流。
「
(文:AI新榜)