
新智元报道
新智元报道
【新智元导读】国产大模型Vidu Q1横空出世,荣登全球视频生成榜首!支持1080p高清画质,好莱坞级首尾帧运镜,细节逼真到爆。更惊艳的是,价格仅是同行1/10,每秒低至0.3元。
就在刚刚,全球效果最强视频生成模型诞生!
没错,它就是生数科技旗下的国产视频大模型Vidu Q1。
在权威评测基准VBench-1.0和VBench-2.0中,Q1一举超越Sora、Runway等国内外顶尖模型,勇夺文生视频赛道双榜第一。
VBench-1.0榜单
VBench-2.0榜单
Vidu Q1在视频生成逼真度遥遥领先,无论是细腻的美学质量,还是精准的对象/场景生成、视频语义一致性等,都展现了令人惊叹的效果。
而且,在内容真实性上,Vidu Q1同样取得了第一的亮眼成绩。
此外,Vidu Q1在国内权威大模型测评机构SuperCLUE的图生视频榜中表现不俗,在动漫风格、写实风格均斩获第一,力压对手。
![]() |
![]() |
此次Vidu Q1新上线的文生视频和图生视频功能,效果直接炸翻天。
在视频分辨率上,已支持1080p,每个细节逼真到爆,让用户爱不释手。
而视频的长度,能够一次支持5s生成,这就直接满足了创作者们的另一大核心需求。
最为重磅的,就是首尾帧功能的升级了——
现在,只要两张图,Q1就能实现电影级的百万运镜!流畅的首尾帧衔接,再次让AI视频的想象力突破天际,拥有颠覆整个行业的爆破力。
更让人惊喜的是,这个行业SOTA级最强视频模型,居然只有其他同行价格的十分之一,性价比拉满。
一个1080p 5秒的视频,价格最低只需1.34元,每秒价格低至3毛钱,让我们把「国产良心价」打在公屏上!
目前用户可在Vidu APP端或者Vidu官网,体验最新高质量模型Vidu Q1带来的电影级视频效果。

而且,你以为爆火全网的吉卜力风是由GPT-4o开的先河?
其实在那之前,Vidu的视频模型早就各大社交平台上刮起了AI动漫风,让歪果网友们啧啧称奇了。
而此次Q1的上线,更是瞬间风靡全网,引来无数网友下场实测。
比如,创作者骆狮虎,就直接用这个功能解锁新玩法,创作出了一镜到底的41秒视频,配乐十分时尚动感。
无需复杂的编辑、拍摄,普通用户也可以利用Vidu Q1的首尾帧功能一键玩转「一镜到底」。
再比如这位网友,用Q1做出了一个黑暗奇幻场景——生物机械骑士和巨大的蠕动触手展开激战。

其中,骑士的盔甲是钢铁与人体肌肉的融合,甚至显出栩栩如生的脉搏。

还有网友表示,模型对提示词的遵循提升很多,一些复杂的提示词也能很好生成,比Veo2的表现更好。


尤其是一致性与1080p质量相结合,完全可以达到顶级一流水准。

为什么这些网友随手做出的视频,就已经有了百万电影大片的质感?接下来,就让我们从此次Q1的全新功能出发,一一拆解。

此次Q1全新升级的首尾帧功能,相比2.0版本的语义理解、丝滑程度都更强。
因此,直接就能基于两张图实现大师级电影的百万运镜。
比如首帧是一个戴着头盔的男人坚毅的眼神,尾帧是他全身铠甲站在一片竹林中。

简单的两张图,Q1就做出了武侠电影中紧张感十足的一个旋转镜头。似乎有一阵寒气袭来,空气直接凝固。
四面八方仿佛已经有了重重埋伏,随时会有暗箭放出,接下来就是刀光剑影的打斗场面,空气中的紧张氛围已经令人窒息。
仿佛竹林中随时会有暗箭放出,悬念迭起。

给到首尾帧,每个AI视频模型的表现各有不同。
Runway Gen-3 Alpha Turbo仅是将两张图片放大合成,看着诡异古怪。Luma Ray2则是首帧到尾帧一闪而过,缺少衔接。
Runway Gen-3 Alpha Turbo
Luma Ray2
可以看出,Q1的生成效果堪称导演级,完美展现了复杂且高级的运镜技巧。
一镜到底,毫不拖沓,镜头的切换专业又自然,紧凑又有层次感,精准捕捉到了人物情绪的微妙变化,还和周围场景完美地融合到了一起。
能让人感受到,这个模型语义理解极强。
在这个例子中,首帧是一个金发女孩站在麦田中的背影,尾帧是她在雨中情绪复杂地望着天。

用Q1生成的视频中,女孩在雨中抬头望天的动作,充满了迷茫、焦虑和忧心,麦田场景一秒梦回《星际穿越》。

从此,我们普通用户也可以根据自己的想象力,创作出电影大片了。
比如首帧是地面上一个圆圈,尾帧是圆圈中出现一个魔鬼,就可以生成「从圆圈中召唤出魔鬼」的一个电影片段了。


除了电影大师级画面,Q1对广告风格也是妥妥拿捏。
比如给出两张图,一个穿着时尚的模特站在桥上,身后是巴黎铁塔,另一张图是男子戴着墨镜,映出第一张图的场景。
不过几分钟,一段画质清晰高级的广告大片,就这样生成了。


当然,Q1的首尾帧能力在动漫效果上,表现得也是一如既往地出色。
首帧是女特工手持手枪,尾帧是子弹穿破玻璃球瞬间爆炸。在prompt中描述「吉恩·科兰的漫画风格,紧张刺激的动画场景」,一段完美的动漫场景就生成了。



Q1直接将视频分辨率提升至1080p,画面清晰稳定,细节表现力大幅增强。
不论是写实场景的逼真质感,还是人物生动的表情、动作,Q1都能轻松驾驭。
第一眼看到这样高清的视频真的被惊艳到了。
不敢想象AI视频已经进化到这种程度了。
视频中是一个超写实的动漫风小女孩,脸上的雀斑以及皮肤的纹理都清晰可见,尤其是她那双大大的眼睛,如此的生动有神。
Q1现在对人物手部的处理也是相当的到位。各种细节,包括头发以及对焦的处理都几乎是无懈可击。


提示词:一个身穿运动服的超现实动漫风格女孩,被特写镜头捕捉到,她满脸雀斑,汗流浃背,脸颊绯红,睁大的眼睛反映出情感和好奇,对着镜头眨眼微笑,慢慢地把手伸向屏幕,广角微距镜头拍摄,超现实的纹理与风格化的柔和相结合,充满情感的时刻,16:9的宽高比
使用相同的提示词再次生成,可以看出Q1的一致性保持得相当好。

接下来这段依然是1080p的高清视频,一个人正坐在一头巨大的飞龙上快速飞翔。
提示词非常简洁:flying fast,没有过多的描述。
这并不影响视频的质量,可以看出视频依然有奇幻电影的质感。


一群奔跑的斑马。


还有微缩镜头下,Q1竟能把蜜蜂扑腾着的翅膀展现出来。

Vidu Q1文生视频的高清画质也同样惊艳。
使用上面图生视频相同的提示词,只是通过文本Q1就可以生成一致性非常高的视频。
下面这两个写实风格的小女孩视频,在画面高清的基础上实现了对提示词的完美遵循。
包括脸上的雀斑、汗水,脸颊绯红,以及大大的眼睛。
尤其是上方小女孩结尾的微笑和下方、小女孩微风拂面的感觉,都是超级真实。


文生视频除了高清外,重要的还有对语义的精确理解。
比如下面场景,从左至右分别是Runway-Gen3 Alpha、Veo2 、Vidu Q1。要求生成富士胶片的质感、大幅度的运镜、日产的GTR以及午夜的东京,Q1都能很好地抓住要点,找到那种感觉!
在同一个提示词下,展现汽车漂移的效果,Gen3 Alpha画面效果并不稳定,出现画面崩坏,Veo 2完全没有呈现大幅度运动。
Q1很好地遵循了「大幅度运动」的指令,动态表现非常逼真,上演了一场速度与激情。
左右滑动查看
提示词:富士胶片Portra 400H静态照片,急驰的日产天际线R33 GTR LM JGTC,大幅度运动效果,东京7-11便利店,午夜时分
在人物场景刻画上,Q1生成的视频更加自然、真实,语义理解力非常强。

提示词:镜头聚焦于一位身穿皮夹克的男子,他独自行走在白天的城市街道上。阳光在人行道上投射出逼真的阴影,背景中是汽车和行人,而模糊的画面则以电影般的照片写实风格呈现。
一些不可能的场景,只需要简单的一句话描述,即可出大片。


一直以来,Vidu还是国内外二次元玩家的主要阵地。
在GPT-4o吉卜力风格爆火全网之前,Vidu早已在社交平台上掀起了AI动漫风潮,不仅仅是吉卜力风格,亦或者是其他日漫、美漫、国漫等风格,Vidu统统都能拿捏住。


这一次,Vidu Q1动漫风格再度突破,支持更加多元化风格生成,画面一致性与动态表现自然流畅。
上传一张图,AI即可生成正在用水晶球施魔法的女子,光影效果足以让人震撼。

提示词:双手之间射出一道强大的能量球闪现
再比如,生成一个日漫风格——银河眼眸般的梦幻少女,融合了吉卜力与新海诚的梦幻审美。
而且,画面呈现出超现实油画质感与细腻光影,令人动容。

提示词:梦幻动漫女孩的特写镜头,有着闪闪发光的星系般的眼睛和飘逸的深绿色头发,被发光的球体和神奇的散景灯柔和地照亮,吉卜力和新海诚的灵感,16:9的宽高比
另外,Q1针对复杂场景的把控也是一流的,生成飞船在太空中穿行的画面中,多架飞船如光影交错般,并没有出现画面不稳定的情况。

动漫女主在水中的动画光效,也是绝美。


提示词:女生在水中,水波带动她的头发,水波在她脸上投下光影,她缓缓扭头看向镜头
Q1还能生成萌趣超有爱的毛毡动画——小刺猬上学的第一天。

提示词:Mr. Hedgehog’s first day at school, with a small backpack and sharp spines, cautiously enters the classroom. He sits gently, the desk creaking. Little Fox, Puppy, Piglet’s wide eyes stare, chair nudged aside. Colorful felt decorations brighten the room, sunlight glows on desks. Mr. Hedgehog looks down, spines trembling, showing a shy, nervous face. Felt animation style, soft texture, warm colors, detailed.
用户也可以尝试将GPT 4O+Vidu Q1组合,让你喜欢的画面都变成可爱的动画风。比如上传GPT-4o生成吉卜力风格的奥本海默图片,Q1即可让经典的一幕跃然屏上。


提示词:白发老人向后转身离开,旁边的男子抽着烟,缓缓转向镜头
即使是80年代动漫,Vidu Q1也能有非常好的风格保持。铁臂阿童木、城市猎人都是上世纪80年代日本经典动漫,Q1生成的星空下的女子很有那味儿了。

提示词:在星空下,一位短黑发、眼睛大而富有表现力的女性,仿佛来自1980年代的日本动漫,她微笑着仰望星空。她穿着夏季连衣裙,佩戴红色圆形耳环,站在漂浮在海上的游轮甲板上。场景以怀旧的动漫风格呈现,捕捉到了在星空下,游轮上度过的宁静而充满激情的夜晚氛围。
最后,再来看一个动漫风格不同AI视频模型的对比效果。
从左至右分别为Runway Gen-3 Alpha、Veo2 、Vidu Q1,可以看到Runway Gen-3 Alpha给人一种80/90年代感觉,但是运动幅度几乎没有,人物表情较为呆板,Veo 2则直接生成的是3D动漫。
通过对比,Q1所有细节呈现非常亮眼,不仅完美理解了80年代动漫复古风格,人物表情、动作也非常生动自然。
左右滑动查看
提示词:可爱的动漫女孩脸。复古风格。80、90年代

Q1不仅在视频生成上超群出众,还推出了革命性的AI音效功能,以高保真音质与精准控制重新定义音效创作。
在2025中关村论坛年会「未来人工智能先锋论坛」上,许多人已初次领略了Vidu Q1能在不同转场上,做到音频高度一致的可控生成,Q1对时间的控制可谓是精细入微,精准到音效出现的时间区间。
Q1是全球首家支持精细化时间控制的文生音效的AI系统。
它还支持多段音效叠加,轻松模拟现实场景,实现雨声、风声、雷声动态混合,层次感丰富,足以媲美影视级混音效果。
这样的优势在于,Q1能够满足各种复杂场景的需求。
比如,让它生成1-2秒出现汽笛声,2-5秒行人在嘈杂街道走过,6-8秒车辆驶过。
提示词: {“提示”: “@{汽笛声 & <1.00,2.00>}@{行人在嘈杂街道复合音效 & <2.00,5.00>}@{车辆驶过 & <6,8>}”,”开始秒数”: 0,”开始秒数”: 8.0}
再比如,在办公场景中,Q1可以同时把键盘打字、打印机运作、咖啡机的声音完美复合。
提示词: {“提示”: “@{敲打键盘 & <0.00,8.00>}@{打印机噪声 & <2.00,3.00>}@{咖啡机 & <4.50,5.50>}”,”开始秒数”: 0,”开始秒数”: 8.0}
还有冲完厕所,打开水龙头洗手的声音,Q1模仿得惟妙惟肖。
不仅如此,Q1还做到了48kHz采样率,远超行业常见的16kHz、32kHz,更是商业领域全球首家支持48kHz的T2A。
它生成的音质细腻自然,解决了刺耳、失真等问题,达到了音乐级保真度。
再生成一段世界毁灭的音乐,有一种哪吒中天元鼎出场时的压迫感。
提示词:形容世界毁灭的音乐


荣登榜首的Vidu Q1不仅是一款工具,更是一个赋能创意产业的「加速器」。
通过无缝融入现有工作流,Q1能提升电影、动漫、广告创作者效率,释放想象力。
在电影行业,高清画质加上对镜头超强的控制,Vidu Q1能大幅降低高质量特效的门槛。
传统的VFX往往需要消耗大量的人力、物力以及经费,效果难以预测。
如今,只需要一句提示词,加上Q1的顶尖性能,就可以不断生成相当高质量的电影特效视频。
不仅成本极低,还可以生成到导演满意为止。
比如下面片段,视频的焦点从枪口丝滑过渡到机器人的脸上,Q1展现了顶尖的性能,目前业内其他视频很难做到。

在比如下面多个人物主体的片段,镜头缓慢推进,焦点也不断深入,整个过程流畅自然。

对广告行业,Q1更是创意爆发的引擎,超强的主体一致性能力,将你想要呈现的缤纷广告画面变成现实。
只要一张产品实物图,就可以生成各种场景、风格、运镜的高清广告视频。
让想象力不被限制。

提示词:金色无线耳机优雅地放置在海边阳光照射的岩石上,周围是盛开的野花和在微风中摇曳的柔软草地,背景中海浪波光粼粼,电影摄影机摇摄,自然生活方式科技商业广告,超现实主义,16:9宽高比
更重要的是,AI视频可以无限放大广告的创意,生成各种「无法实拍」的镜头。
比如在下面视频中,可以实现液体飞溅或反重力构图,突破了传统广告限制。
只需数小时,广告公司也可以创造出引人入胜的创意内容,效率大幅提升。

提示词:标有「vidu」的奢华香水瓶优雅地漂浮在雕塑木质元素之间,温暖的琥珀色灯光,液体黄金飞溅冻结在半空中,干叶轻轻旋转,柔和的电影镜头运动,产品聚光灯,商业风格,超现实,高端香水品牌美学,具有平滑渐变的工作室背景,16:9的宽高比
对于动画师而言,支持多元化动漫风格生成的Q1,可以让艺术家快速生成场景原型。
同样是一句提示,动画师便能创作出施展魔法的少女,或是穿梭星云的飞船,可确保画面动态流畅,角色主体一致。
这大大缩短了前期制作时间,让他们更专注于故事本身、角色刻画的身上。
除了主流创意产业,Q1也将在教育、自媒体等创作领域蕴藏着这巨大的潜力。
另外,Q1精准时间控制文生音效的功能,更是工作流的一大补充,可以实现音画同步,一键打造出精致成品。
而这一切,生数科技的模型仅用同行1/10成本完成,让创作门槛一降再降。
这种极致性价比,可以说是为真实世界的生产而量身订做!
从此,各行各业的高质量视频制作,都不再需要庞大的团队、昂贵的软件和大量时间,更无需巨额预算。
不过,Vidu Q1的出世并非意在颠覆,而是通过深度融入现有工作流,成为创意产业不可或缺的「催化剂」。
从独立动画师的第一部短片,到好莱坞大片的震撼特效,来自全球不同地区的创作者们正与Vidu Q1共创未来。
一项调查显示,预计AI媒体市场规模将从2023年的171亿美元,大幅增长至2033年的1957.7亿美元,复合年增长率直接达到27.6%。

而Q1的背后,就是AI视频创作的广阔蓝海。
目前Vidu Q1已全球同步上线,打开Vidu APP或者登录Vidu网站Vidu.cn,用户即可立刻体验Vidu Q1带来的极「质」体验。
(文:新智元)