作者|子川
来源|AI先锋官
就在今天,Luma AI发布它们全新的产品Ray2。
据介绍,相较于Ray1.6,Ray2在文本语义理解、自然连贯动作等方面会更出色,同时算力扩大了10倍,生成速度更快了。
不过目前仅支持文生视频功能,后续计划推出图像到视频,视频到视频和视频编辑功能。
下面我们就来看一下Luma AI全新的视频模型Ray2到底有多强。
官方放出的demo涵盖了各种不同风格和题材的视频,能感觉到最突出的特点就是动作的连贯性和文本理解能力。
不仅有比较好的连贯性,还十分逼真,倒蜂蜜终于是倒明白了。
一觉醒来,连大猩猩也开始了极限运动。该说不说,这运动表现力是真的好。
当用Ray2生成都视频搭配上MMAudio生成的音效,妥妥好莱坞大片的既视感。
正好,Vidu 2.0最新发布,用它和视频生成领域的霸主可灵来检测一下它的能力。
下面我们通过输入相同的提示对比Ray2、可灵和Vidu2.0三个模型,看一下它们孰强孰弱。
不过Vidu2.0目前仅支持文生图模式,小编就用Ray 2.0生成的视频的首帧作为参考图,再加上相同的提示词来生成。
众所周知,运动表现一直是视频生成模型的大难题,常常出现变形或不符合运动规律的情况。
可灵也好不到那里去,脚都不蹬,自行车就自己走起来了,还有Ray2,运动很符合物理规律,但是速度越快,似乎清晰度就减低了很多。
不过,单从运动表现力来看,Ray2明显更加符合物理规律。
提示词:小猫玩空手道,拳、踢、飞踢、空手道,他们穿着空手道和服。空手道道场。
运镜同样是视频生成中的一大难题,视频的镜头切换往往不符合提示词的指引,尤其是在对细节的描述方面更是缺乏遵循。
提示词:焦点从射击位置的特写转移到雨中的狙击步枪枪管尖端。变焦镜头,电影,35 毫米胶片
运镜对于可灵来说,的确有点难为它了,反而是Ray2较好的遵从了语意,虽然在提示词中没有提到人,但最后呈现的效果更好了。
整体来说,Luma AI的全新视频模型Ray2变强了,特别是在文本指令有很强的理解能力,可以理解人、动物和物体之间的互动,创建出连贯且物理上准确的视频。
原本以为2024年将是视频生成领域竞争最卷的一年,但随着Luma AI在2025开春推出Ray2的效果来看,似乎视频生成领域又将迎来一场新的军备竞赛!
(文:AI先锋官)