新智元报道
新智元报道
【新智元导读】通义万相视频模型,再度迎来史诗级升级!处理复杂运动、还原真实物理规律等方面令人惊叹,甚至业界首创了汉字视频生成。现在,通义万相直接以84.70%总分击败了一众顶尖模型,登顶VBench榜首。
Sora、Veo 2接连发布之后,AI视频生成的战场又热闹了起来。
就在昨天,通义万相视频生成模型迎来了重磅升级!
他们一口气推出了两个版本:注重高效的2.1极速版、追求卓越表现的2.1专业版。
刚一上线,就异常火爆,等待时间甚至一度达到了1小时
此次,全面升级的模型不仅在架构上取得创新,更是以84.70%总分登顶权威评测榜单VBench榜首。
通义万相2.1的性能一举超越了Gen-3、CausVid等全球顶尖模型。
在实用性方面,通义万相2.1也得到了显著的提升,尤其是在处理复杂运动、还原真实物理规律、提升影视质感、优化指令遵循等方面。
以下都是我们实测出的Demos,就说够不够拍电影大片吧!
更令人惊叹的是,它还在业界首次实现了中文文字视频生成,让AI视频文字创作再无门槛。
以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画边缘模糊且自然,随着晕染的进行,水墨在纸上呈现「福」字,墨色从深到浅过渡,呈现出独特的东方韵味。背景高级简洁,杂志摄影感。
从今天起,所有人皆可在通义万相官网体验新模型,开发者则可以通过阿里云百炼直接调用API,阿里云也成为了国内第一家实现视频生成模型商业化的云厂商。
那么,通义万相2.1究竟给我们带来了哪些惊喜?
我们经过一番实测后,总结出了5大要点。
1. 首创中文文字生成
通常来说,文字生成是AI视频模型进化的一大痛点。
我们已经看到Sora、Gen-3等模型,已经能够生成很好的英文字母效果,不过截至目前,从未有一个模型能攻克汉字的生成难题。
为什么之前的AI视频生成工具,都在「逃避」中文文字生成这个难题?
这是因为难点在于,中文文字的字体结构比英文更复杂,而且需要考虑笔画的层次感。在布局方面,中文字体更讲究,做成动态效果时对美感要求更高。
而阿里通义万相,便是首个中文文字视频生成的模型。从此,AI视频生成迈入「中文时代」!
天空中飘着云朵,云朵呈现「新年快乐」的字样,微风吹过,云朵随着风轻轻飘动。
水彩透叠插画风格,两只不同颜色的可爱小猫咪手举着一条超大的鱼,从右边走到左边。它们分别穿着粉色和蓝色的小背心,眼睛圆圆的,表情呆萌。充满童趣,笔触淡雅温馨,简笔画风格。纯白背景上逐渐显示出来几个字体,写着:「摸鱼一天 快乐无边」。
一只柯基面前摆放着一只小巧的木鱼,仿佛在进行冥想仪式,背景出现字样「静」。
平拍一位女性花样滑冰运动员在冰场上进行表演的全景。她穿着紫色的滑冰服,脚踩白色的滑冰鞋,正在进行一个旋转动作。她的手臂张开,身体向后倾斜,展现了她的技巧和优雅。
在泳池中,一名男子正在奋力向前游动。近景俯拍镜头下,他穿着黑色泳衣,戴着白色泳帽和黑色泳镜,正在水中划动双臂。他的头部部分被泳帽和泳镜遮挡,只露出嘴巴和鼻子。他的手臂在水中划动,产生了一系列的水花和气泡。随着他的动作,水面上出现了涟漪,水花四溅。背景是蓝色的泳池。
一名男子在跳台上做专业跳水动作。全景平拍镜头中,他穿着红色泳裤,身体呈倒立状态,双臂伸展,双腿并拢。镜头下移,他跳入水中,溅起水花。背景中是蓝色的泳池。
特写镜头下,一位美女面容精致,她先是以手指轻触红唇,微微抿嘴,眼神中透露出一丝俏皮。紧接着,她毫无保留地开怀大笑,笑容如同绽放的花朵,美丽动人,眼角弯成了月牙状,展现出无比的快乐与感染力。
穿着禅意风服饰的可爱狐狸在林间空地上欢快地跳舞,身上的衣物随风轻扬。狐狸有着蓬松的尾巴和灵动的眼神,嘴角带着微笑,仿佛在享受自然的每一刻。背景是茂密的竹林,阳光透过竹叶洒下斑驳光影。画面采用旋转拍摄,营造出梦幻般的动感效果。整体风格清新自然,充满东方韵味。近景动态特写。
暴风雨中的海面,海王驾驭巨浪前行,肌肉线条,灰暗天空,戏剧性照明,动态镜头,粗犷,高清,动漫风格
富有电影感的镜头捕捉了一位身着暗黄色生化防护服的女医生,实验室惨白的荧光灯将她的身影笼罩其中。镜头缓缓推进她的面部特写,细腻的横向推移凸显出她眉宇间深深刻画的忧思与焦虑。她专注地俯身于实验台前,目不转睛地透过显微镜观察,手套包裹的双手正谨慎地微调着焦距。整个场景笼罩在压抑的色调之中,防护服呈现出令人不安的黄色,与实验室冰冷的不锈钢器械相互映衬,无声地诉说着事态的严峻和未知的威胁。景深精确控制下,镜头对准她眼中流露的恐惧,完美传达出她肩负的重大压力与责任。
A fast-tracking shot down an suburban residential street lined with trees. Daytime with a clear blue sky. Saturated colors, high contrast
4. 真实的物理规律模拟
在餐厅里,一个人正在切一块热气腾腾的牛排。在特写俯拍下,这个人右手拿着一把锋利的刀,将刀放在牛排上,然后沿着牛排中心切开。这个人手上涂着白色指甲油,背景是虚化的,有一个白色的盘子,里面放着黄色的食物,还有一张棕色的桌子。
两只柯基狗在擂台中央进行拳击比赛。左边的狗戴着黑色拳套,右边的狗戴着红色拳套。平拍镜头下,两只狗都穿着拳击短裤,身体肌肉线条明显。它们互相挥动拳头,进行攻防转换。整个场景在固定视角下拍摄,没有明显的运镜变化。
5. 高级质感、多种风格、多长宽比
哥特式电影风格,亚当斯骑在一匹黑色骏马上,马蹄轻踏在古老的石板路上。她身穿黑色长裙,头戴宽边帽,眼神冷峻,嘴角微扬,透出一丝神秘。背景是阴暗的古堡和茂密的森林,天空中飘着乌云。镜头晃动,营造出一种不安与紧张的氛围。近景动态骑马场景。
中国古典宫廷风格,古代皇宫宫殿上正在进行皇帝的登基大典。群臣身着华丽朝服,表情肃穆,排列整齐。镜头从群臣视角出发快速向前推进,锁定在身穿龙袍、头戴皇冠的皇帝身影上。皇帝面容威严,眼神坚定,缓缓步入大殿。背景是金碧辉煌的大殿,雕梁画栋,气势恢宏。画面带有浓厚的皇家氛围,近景特写与中景结合,快速推进和跟随拍摄。
The camera floats gently through rows of pastel-painted wooden beehives, buzzing honeybees gliding in and out of frame. The motion settles on the refined farmer standing at the center, his pristine white beekeeping suit gleaming in the golden afternoon light. He lifts a jar of honey, tilting it slightly to catch the light. Behind him, tall sunflowers sway rhythmically in the breeze, their petals glowing in the warm sunlight. The camera tilts upward to reveal a retro farmhouse.
古风画面,一位古人抬头望着月亮,缓缓低头,眼神中流露出深深的思乡之情。
核心架构创新
自研VAE与DiT双重突破
超长序列训练和推理
规模化数据构建管线与模型自动化评估机制
AI视频生成下一个里程碑
(文:新智元)