2025年,Vidu这匹“黑马”将如何搅动视频生成赛道?
作者|王世昕
编辑|栗子
今天,随着国产视频大模型Vidu2.0正式上线,AI视频生成正式进入了“秒级生成、‘分’级价格、人人可用”的时代。
这次生数科技拿出了最强组合拳:不仅在速度上实现了秒级生成,更把单秒视频价格的最低打到了4分钱,同时借助其一贯的多主体一致性优势,支持生成更高质量的视频。
国外用户生成的Vidu不同版本对比视频
伴随着去年一批AI视频产品的上线,视频大模型赛道正式迈入2.0阶段。在百花齐放的局面下,视频大模型的全面落地似乎触手可及。
然而,在这一繁荣背后,视频模型仍面临诸多挑战:如模型稳定性差、推理速度慢,以及高昂的推理成本,这些都让普通用户望而却步,导致视频模型成为少数爱好者和专业人士的专属工具。如何突破“好、快、划算”这“不可能三角”成了视频模型玩家追逐的重要目标。
在这些玩家中,清华系生数科技的Vidu、快手可灵为代表的国产模型正凭借着高质量的效果在海内外引发了高度关注。
尤其Vidu作为国内首个对标Sora的视频大模型,去年4月份惊艳亮相后表现颇为亮眼:自去年7月全球上线,20天用户数突破百万,上线100天用户数突破千万,目前全球超过200个国家和地区的用户在Vidu平台上共计生产了上亿条视频。
根据市面上各家已公开的数据来看,Vidu是目前全球增速最快的视频模型产品。伴随着新版本的发布,这匹黑马又将如何搅动整个视频生成赛道?
1.极致性价比,将价格卷至“分”
与大多数LLM产品普遍支持免费使用不同,AI视频产品在价格上并算不上友好。
目前市面上闭源的AI视频产品采用订阅制,例如Sora Turbo目前仅对ChatGPT Plus和Pro会员开放,根据订阅积分制,想要通过Sora Turbo生成一条1分钟左右的1080p视频,起码要花费30美元。
这并不难理解,因为一个1080P的视频,每秒包含约200万像素,每分钟视频就有1.2亿像素,相对于自然语言文本的处理难度,视频内容所耗费的计算资源要呈指数级增加。
不仅如此,由于目前视频模型的生成质量不够稳定,用户往往需要多次生成,这也推高了用户的真实使用成本。
俗话说“一分钱一分货”,但价格困境如同天堑,只有付费意愿较强且预算充足的用户才能有机会使用视频模型产品,这也将大量普通用户望而却步。
对于大多数用户来,视频生成自由的距离仍然遥远,许多视频模型产品也难免陷入了鸡肋的境地:用之太贵,弃之可惜。
相比于Sora高单价筛选用户的“精英叙事”,Vidu2.0与前不久爆火的DeepSeek类似,重点对技术能力以及资源利用进行了针对性升级。这一次,Vidu2.0版本的价格不仅没有提高,还降到了史上最低。
据了解,Vidu2.0的每秒单价成本最低至0.04475元,以720p每秒单价计算,行业平均价格为0.6元/s ,而Vidu2.0仅为0.2587元/s,是行业均价的43%。
每秒单价成本最低4分钱,视频生成进入了价格“分”时代。
以一条一分钟的商业短视频广告为例,通常传统广告片制作需要经过平面、动效、剪辑等流程,需要雇佣剪辑师、画师、特效师等等,即使是一个4-5人的小团队,按照普通出品水准,1分钟广告片的行业平均成本至少也在3000-5000元左右,高品质的更贵,达到数万元。
而借助Vidu2.0一分钟生成成本约等于3-5元,再加上剪辑、配音等成本,单条视频可以控制在100元左右。
从成本来说,Vidu2.0对于传统视频制作已经可以称得上是“降维打击”。可以想像,在未来,借助Vidu2.0,将会有更多的专业、非专业创作者和企业用户能够负担得起AI视频,这也将促进视频模型将会实现更多场景、更大规模的商业化落地。
值得一提的是,为了进一步提升资源利用率,并为成本有限的用户提供便利,Vidu2.0还开发了“错峰模式”。
简单来讲,其类似于异构计算中的动态资源分配,即将用户申请的任务将排队等待流量低峰时执行,错峰生成不仅不扣用户现有积分,而且支持无限量生成。
这一模式对于轻度用户和成本控制严格的用户来说非常友好,无异于免费“薅羊毛”,这将进一步推动用户数量的增加。
不难发现,Vidu2.0通过提高性价比让“人人都用的起”,从而吸引更多的用户、挖掘更多的使用场景、催生更多的需求,让视频模型真正获得普及。
2.10秒成片,冲刺实时生成
视频模型备受关注,重要的一点是它显著解决了效率问题。与传统流程不同,视频模型只需要借助描述词,或者图片信息,即可直接输出视频内容,将视频创作的周期从“天”“周”缩短到了“小时”甚至是“分钟级”。
但即便如此,在实际生产环节中,视频模型的效率仍然不足。
目前视频模型产品普遍支持4秒、8秒两个时长选择,通常生成一段4秒的视频素材,基本都需要2-3分钟才能完成,这还不是1080p分辨率的。如果想要画面质量更高,推理时长还要更久。
不仅如此,还有更多隐性时间成本容易被我们忽略。
一是“排队”,受制于算力供给问题,用户在实际使用视频模型产品的时候,在提交任务后,往往需要排队等待数小时,才能正式进入生成环节。
二是“抽卡”,受制于模型可控性问题,生成的视频画面存在崩坏、画面不连续、主体前后不一致等问题,导致想要获得一段可用的片段素材,用户需要反复生成,类似于游戏中“抽卡”,结果不可控。连一段4秒素材都得反复尝试,如果想要生成一个分钟级甚至小时级的完整成片,素材量庞大,抽卡工作更是繁复,这也无形中加大了创作者的时间成本。
全行业都在“保质提速”。那么,视频模型速度提升的天花板到底在哪儿?
Vidu2.0的答案是:秒级。
据悉,Vidu2.0单条512-4s 图生视频的平均生成速度已经跑进了10秒。生成速度快一直是 Vidu 的拿手好戏,早在去年7月底全球上线1.0版本时,Vidu 单片段的实测推理速度就已跑进了30秒以内,当时就实现了全球最快,这一次,Vidu 将生成速度进一步提升了三倍。
Vidu 2.0 512-4s图生视频生成速度实时测评
对于用户来说,速度提升带来的感知非常明显。目前已经有不少内测用户体验到Vidu2.0后,引发了热烈讨论。
在海外社媒上,#ViduSpeed已经成为关于Vidu最热点的话题。一位日本用户使用Vidu2.0仅用5秒就生成了一段动画片段,并感叹这可能是目前最快的视频模型。
视频生成进入秒级,意味着什么?
首先,一定是产业效率的提升。可以想像,传统的视频生产工作流彻底被重塑。传统流程需要拍摄、后期剪辑、特效等等工作,如今这些难实现的画面,统统可以在数秒内就生成出来,比如一段1分钟时长的素材,用 Vidu2.0 只需要5分钟就可以生成完成。
第二,将带来新型内容产业的蓬勃,当“喝杯水的功夫即可生成高质量视频”,创作门槛被降低,更多人能够以较低的时间成本来生产高质量的视频内容,AI-Generated 内容数量也将迎来爆发。数据显示,截至目前Vidu平台累计生成的视频数突破亿条,这一数据将随着Vidu速度的提升进一步增长。
第三,进入秒级生成意味着视频模型向“实时生成”冲刺。可以想象一下,用户可以将他们所想的内容即时生成出来,而不需要等待或经历任何延迟,“所想即所得”。用户也可以根据自己的需求,实时对内容进行修改或调整,也就是基于生成内容的实时互动成为可能。这也意味着视频模型的应用不再局限于单纯的内容生产环节,同时能够催生全新的内容消费体验。
比如在游戏领域,通过视频生成模型,玩家可以自定义游戏内容与场景;在内容娱乐领域,实时互动剧成为可能,刷短视频、剧集的时候,观众可以实时设定下一步的剧情;在线教育领域,老师可以根据教学内容生成即时的内容演示,进一步提升学生的学习体验。
正如移动互联网时代从4G到5G的进化,通信的高速率、低延迟和高连接性为AR、自动驾驶等技术普及创造了条件, 视频模型的从秒级到实时的迈进,也将带来全新的商业革命。Vidu2.0的秒级生成,为下一个技术进阶奠定了基石。
3.打破不可能三角,又快又省又好
大模型的“不可能三角”一直是行业发展的难题:如何在追求高速度和低价格的同时,确保生成内容的高质量?这不仅是性能优化的挑战,更是保障用户体验的核心。
Vidu2.0 成功的在“又快又省”的前提下,保证了出色的模型效果。从这次Vidu 2.0发布的官方预热视频,就能瞥见其质感之强。七支不同风格故事视频系列很有电影大片既视感,画面逼真度很高,多元化风格也拿捏得很好。如果不是视频标注,很难猜到都是用AI视频生成的。
具体来说,Vidu 2.0在画面稳定性上实现了显著提升,特别是在主体一致性方面,达到了一个全新的高度。
保持主体一致性一直是视频模型面临的长期挑战,尤其在处理多主体场景时,往往难以保证主体外观、特征和风格的一致性。
Vidu自研发之初就是着力于解决这一核心难题,去年7月Vidu全球首发“参考生视频”功能,解决了单主体一致性问题,在11月的版本更新中,Vidu引入了多主体一致性功能,支持用户上传多张图片,从而确保画面中的多个主体特征一致。Vidu 2.0在这一基础上进一步优化,让主体特征的保持更加精准与稳定。
比如下面的案例,Vidu 2.0 生成的视频画面中两个角色的形象保持的更像更稳定。
此外在风格的一致性上,Vidu2.0不仅可以适配包括动漫、水墨、写实等在内的多种风格,还在保持风格上超越了大多数同类产品;另外针对业内一直头疼的运镜控制问题,对比业内其他家,Vidu2.0 对于镜头“上下左右推拉摇移旋转”的理解更强。
如下图,对比几家的镜头运动,可以看到Vidu 2.0 在镜头理解上更加精准。
Prompt:镜头顺时针旋转
另外,更值得关注的是Vidu2.0在首尾帧生成方面的稳定性。
值得关注的是,Vidu 2.0这次在首尾帧生成方面的稳定性有大幅提升。与前一代相比,Vidu 2.0在首尾帧画面的衔接上更为流畅、无缝。从各家对比视频中可以看出,Vidu 2.0生成的视频展现出一种独特的季节穿越感和更强的故事性。
相比行业内的其他产品,Vidu2.0在一致性方面的领先优势正在拉大,结合秒级生成,Vidu的视频创作也将满足更多元的使用场景。不管是面向专业领域,制作媲美大片的视频内容,还是探索像动态漫之类的新玩法,Vidu 正成为许多专业用户、非专业用户的首选。
比如Discord 用户Mori用Vidu制作的一支音乐MV在海外获得了广泛关注,效果有点环球影业的《欢乐好声音》电影那味了。
比如X上的用户花笠@hanagasa_manya利用Vidu制作的动态漫画,将静态漫画巧妙地动态化呈现,赋予了漫画人物全新的生命力。美厨娘可以从另一个动态画面中夹取美食,这估计是漫画迷们都没有想到的破次元,更有网友在平台回复称,说不定2年后的漫画就是这样动起来的。
在海外社媒搜索Vidu可以发现,中国大模型Vidu已经走向全世界,包括欧美、日本在内的全球用户都在使用Vidu进行创作。
在美国俄克拉何马州,60岁儿童作家MamaFish是Vidu的忠实粉丝,她一直希望将笔下的童话故事变成生动有趣的视频,但由于不会做视频,雇佣人做视频对于其个人来说花费不小,这个梦想就一直没有实现。
在偶然间接触到Vidu后,她发现即使不会做视频也能利用Vidu轻松生成想要的视频,在短短20分钟内就可以创建50多个场景,而且成本非常便宜。目前,MamaFish利用Vidu创作的视频在YouTube上广受欢迎,她个人也因此获得了更多收益。
即使是动漫强国日本,有大量的AI动画爱好者是Vidu的忠实用户,Vidu帮助他们从爱好者变成自发的内容生产者,比如X上用户@852話(hakoniwa)利用Vidu 2.0创作的动漫短片,短时间内已收获了破万的播放。
更有个人创作者已经借助Vidu生成优质内容跻身成为数十万粉的大号,比如@8co28是Vidu第一批早期用户,同时还是一位二次元爱好者。他利用Vidu创作了大量优秀的二次元作品,在X上吸引了众多关注,目前粉丝已经超过35万。
未来,生数科技Vidu希望吸引更多类似美国老奶奶、@8co28这样非专业、专业的用户和公司,而当更多人利用 Vidu 创作出多元精彩的故事时,作为视频生成行业破局者的生数科技,也正在悄然谱写一个关于AI平民化的新故事。
*点击阅读原文体验Vidu2.0
(封面图由AI生成)
(文:甲子光年)