朋友们好,我是歸藏(guizang)。
今天上午的火山引擎Force原动力大会上字节发布了 Seedance 1.0 Pro 视频生成模型。
也就是即梦里面的视频3.0 pro 模型。

我也提前测试了一下,发现这次字节的视频模型真的站起来了。
在图生和文生的提示词理解、画面细节、物理表现一致性理解等方面都无可挑剔,非常强悍,而且还是原生 1080P 分辨率。
在 Artificial Analysis 上,Seedance 1.0 文生视频、图生视频的成绩都在第一,比 Veo 3 高了很多。

先介绍一下 Seedance 1.0 Pro 模型特色:
- 目前模型想支持文生视频、首帧图生视频,输出分辨率为 1080P,最长生成 10 秒
- 支持单次生成无缝切换的多镜头叙事视频,而且可以保持人物场景一致性
- 在多主体动作和复杂运镜提示词的表现上非常好
- 画面与主体动态效果更自然,结构性更好,崩坏率更低
- 生成速度超快,1080P 分辨率的 5 秒视频生成只需要 40 秒
- 价格有优势,在如此高质量的前提下,通过火山引擎调用 Seedance 1.0 Pro 5 秒 1080P 视频 API 价格仅为 3.67 元
01 多镜头生成测试
先来看看字节的看家本事吧,哈哈。
Seedance 1.0 Pro 这次单次生成多镜头的能力更加稳定和可用。
下面这个图生视频 Seedance 1.0 Pro 对于提示词的理解都非常到位。
三段完全不同景别和运镜的分镜都完美实现了。
而且由于是图生很考验场景和人物一致性,人物的装束和这种酒店的设计风格三个分镜都很一致没啥问题。
图生视频|故事:紧急撤离 (The Extraction)
分镜一 (0-4秒): 一个身穿黑色战术装备、头戴红色镜面头盔的人,手持手枪,在酒店的走廊里高速奔跑。镜头以与他同样的速度进行横向跟拍,背景因运动而模糊,营造出紧张的急迫感。
分镜二 (4-7秒): 镜头切换到一个固定的机位,位于走廊拐角的一组电梯门前。奔跑者冲入画面,一个急刹停在电梯门前,他用空着的手反复、用力地按着下行按钮,同时身体紧绷,不时回头望向来时的走廊方向。
分镜三 (7-10秒): 切换到电梯内部的视角,从一个较低的角度向外拍摄。电梯门“叮”的一声打开,门外的奔跑者立刻冲了进来,与电梯里几位目瞪口呆的普通乘客擦肩而过。他一进入电梯就立刻转身面向门口,电梯门随即开始关闭,切断了外部的视野。
以往我们很少用文生,主要是视频生成成本高,崩坏概率大,文生不好控制。
但是随着像 Seedance 1.0 Pro 这样的提示词遵循非常好的模型不断出现,视频成本不断降低,文生在普通用户这里可能是主流。
下面这个一段提示词就搞定了一个餐饮宣传片的常见镜头,而且菜品的样式都能做到三个分镜是一样的。
文生视频|最后的点缀 (The Final Touch)
分镜一 (0-4秒): 在明亮的厨房里,一位穿着白色厨师服的厨师正低头审视着一个白色盘子里的菜肴。镜头为中景,展示了厨师的专注。
分镜二 (4-7秒): 镜头切换为极端特写。厨师的手用一把镊子,小心翼翼地夹起一小片绿色草本叶,并将其精确地放置在菜肴顶部的某个特定位置。
分镜三 (7-10秒): 切换为对整个菜肴的正上方俯拍镜头。盘子被缓慢地旋转,我们可以清晰地看到,上一镜头中那片绿叶正完好地停留在它被放下的位置上。
注意看女生带着的耳机,在第二个分镜耳机的细节依然可以保持一致。
同时第三个分镜下手指打字这么精细的动作一点问题没有。
文生视频|紧急回复 (The Urgent Reply)
分镜一 (0-3秒): 咖啡馆窗边,一个留着短发、戴着耳机的年轻女子正看着窗外。她面前桌上的手机屏幕突然亮起,显示一条新消息。镜头为中景,从侧面拍摄。
分镜二 (3-7秒): 立即切换为对她面部的正面特写。她的表情从平静变为惊讶,眉头微皱,眼神紧盯屏幕。
分镜三 (7-10秒): 切换为过肩镜头,从她的身后拍摄手机屏幕。我们看到她的双手快速举起手机,拇指开始在键盘上打字回复,屏幕上出现输入的字符。
整个布景和物品都非常到位,符合古装剧的场景。
无论海外视频模型如何进步,在中国特色的文化内容上肯定是不行的,还是得指望 Seedance 1.0 Pro 这种国产模型。
文生视频|开启机关 (Opening the Mechanism)
分镜一 (0-3秒): 在一间光线昏暗的书房里,一个身着古装的人正用袖子拂去一个布满灰尘的木盒上的灰尘。镜头为中景,能看到人物和木盒。
分镜二 (3-7秒): 镜头切换为木盒的特写。一双手正在上面摸索,手指按下一个隐藏的按钮,盒子的侧面弹出一个小巧的榫卯结构。
分镜三 (7-10秒): 切换为人物面部的特写。他的眼睛因惊讶而睁大,嘴角露出一丝微笑,视线向下看着刚刚打开的盒子(盒子本身在画外)。
一般我们短视频也就十几秒的时间,也就是说你只需要两次生成就可以讲个完整的故事了。
这个能力未来在 C 端非专业用户的使用中一定会大放异彩,因为基本不需要剪辑。
而且即梦还支持 AI 配音,几次点击就能完讲一个完整的故事,期待有专门针对这个能力优化的产品出现。
然后来分别看一下图生和文生的能力测试,运镜和表演能力等综合测试都融合在里面了。
02 图生视频测试
首先是藏师傅的老测试集,这个怪兽图你们应该见过很多次了。
但是每次出现,视频的质量依然可以看出非常明显的变化。
仔细看怪兽的毛发,光照在上面的质感非常真实,远处云雾也在缓慢的运动,下雨的时候他自己给补上了应该有的云层一点都不突兀。
可以说现在提示词遵循已经是最基本的要求了,更好的模型需要生成提示词中没说但是画面中应该有的内容。
镜头拉远,猛兽站起来,然后开始抬头咆哮,咆哮后开始下雨
第一次有模型把这张图和这个提示词完美的生成出来。
镜头确实是在向左环绕,而且镜头运动过程中周围的人物一直呈现运动模糊状态。
人物也在转身,在停下来的时候周围的人物变清晰,而且还是大幅度运动,表现出类似时停的感觉,所有的细节都这么完美。
镜头向左环绕,人物转身,背景是快速穿行的人流,人物相对静止。
这张图很难,因为整个的姿势是一个侧面而且周围还有这种非常规的水流,很考验模型的补全和想象能力。
可以看到 Seedance 1.0 Pro 非常顺滑的让人物完成了转身,而且头饰的细节非常优秀,以往的模型一般这种都会糊掉。
画面中的主体在水中优美、缓慢地漂浮,头部轻轻转向一侧,而镜头则采用平滑、盘旋的跟踪拍摄,营造出梦幻般的神秘氛围。
高风格化上的表现也非常亮眼,这种非常见风格写实和平面融合的很难搞。
Seedance 1.0 Pro 在风格上维持的相当完美,即使是大景别运动下依然保持了风格一致性。
而且手部握剑姿势没啥问题,剑身冒出的蓝光都是这个风格的。
极其缓慢地向角色坚毅的双眼推近。他发梢的光蝶加速振翅,剑刃上的辉光也随之明灭流转。
瞬息之间,角色引身挥剑,剑锋在空中划出绚烂的蓝色光弧。
然后是传统的 2D 动漫风格,也没啥问题,大景别的变化依然可以维持。
镜头将开始以一个高速的弧线围绕角色运动,从他的侧后方扫向正前方,完美地跟随他周身螺旋升腾的炽热气浪。与此同时,角色本身会有一个从极静到极动的爆发,他将身体完全舒展开,完成这记威力万钧的斩击。
03 文生视频测试
先来试试前几天在推上看到的一个 POV 运镜提示词,这个提示词非常考验运镜和提示词理解能力。
虽然受限于视频长度最后没有进入到胡同,但是已经看到入口了。
整个场景相当复杂,而且猫咪运动速度很快,但是从香料到喷泉到打瞌睡老人再到市场的其他人全都的细节都非常清晰,根本没有崩的迹象,相当稳定。
运镜的跟随也完成的很好,一直锁定着猫咪。
电影般的连续单镜头拍摄,以一只自由奔放的姜黄色虎斑猫的视角,探索了一座充满活力的北非古城。镜头跟随着猫咪小巧、敏捷的身影,它眼神好奇,性格大胆而独立,动作自然流畅。
旅程始于一个熙熙攘攘的香料市场,穿梭于堆积如金字塔的香料、悬挂的黄铜灯笼和行人的长袍下摆之间。
它突然冲进一个宁静的、阳光普照的庭院(里亚德),悄然滑过中央的马赛克瓷砖喷泉,惊醒了一位正边喝薄荷茶边打瞌E的老人。进入了一条狭窄、阴凉、墙壁被粉刷成蓝色的胡同。
然后是另一快速运镜方式 FPV 无人机运镜。
非常精髓的鹿在镜头在从对着鹿身前再转到鹿生后的时候镜头的机动动作非常的无人机。
整个森林的植物细节和清晰度,真的太丰富了,而且可以长时间维持。
在深秋时分的金色夕阳下,阳光穿过茂密的森林,在铺满落叶的地面上投下斑驳的光影。一只长着雄伟鹿角的雄鹿被惊扰,突然从林中猛冲而出,镜头以一种极具侵略性的第一人称(FPV)穿越机视角,紧紧跟在鹿的后方展开了一场惊心动魄的追逐。摄像机的运动极度迅猛流畅,它紧贴地面,随着雄鹿的每一次跳跃和转向而灵活地调整方向,时而从倒下的树干下呼啸穿过,时而以一个惊险的侧倾姿态绕开粗壮的树干。

然后是一个既考验运动精细度,又考验物理特性,还考验中国文化理解的测试。
这里龙字没有写出来,当然让视频模型写出具体的中文几乎在现阶段是不可能的。
但是墨迹是否跟笔手部握笔姿势和写字姿势其实也很难做到很好。
当然 Seedance 1.0 Pro 都搞定了,握笔姿势和墨迹在纸上的晕染都无可挑剔,甚至每个笔画的笔记都能跟运笔姿势对上。
一张宣纸在桌上铺开,旁边是砚台和毛笔。一只手握着毛笔,笔尖在砚台中蘸满墨。手腕移动,笔尖在纸上写下一个“龙”字。运笔过程包含起笔、转折和收笔的动作,墨迹在纸上渗透。镜头从桌面的正上方俯拍开始,然后缓慢推近,成为对笔尖的特写,并跟随笔尖的运动轨迹移动,最后停留在写好的字上。

然后是考验物理特性和多人运动的场景,一般这种场景很容易出现肢体崩坏和穿帮。
但是 Seedance 1.0 Pro 就非常自然所有人的一致性都保持的很好,运动幅度很大的情况下物理碰撞也没问题。
在拥挤的地铁车厢里,急刹车导致所有乘客不由自主地向前倾倒,并相互推挤。

测试到这里就结束了,整体来看 Seedance 1.0 Pro 在画质和稳定性上的表现是独一份的,而这两个也是用户最关注的部分,我这里的案例基本都没有抽卡。
另外生成是真的快,一个 1080P 原生的视频模型能有这么快的速度,只能说字节还是非常猛的,算法和卡都要下功夫才行。
在保证质量的前提下,影响模型推广的主要因素就是速度、稳定性、价格这三者,Seedance 1.0 Pro 都已经相较于其他模型迈出了一大步。
相信 AI 视频即将迎来相当一大波受众拓展,期待字节在视频的多模态融合上继续发力,继续降低普通用户出片门槛。
6 月 11 日也就是今天,Seedance 1.0 Pro 将通过火山引擎开放给企业用户,并且已经上线了豆包 App。
打开对话框,选择“照片动起来”,输入提示词或者上传你的图片,就能体验。

如果你觉的内容对你有帮助的话可以帮我点个赞👍或者喜欢🩷,也可以推荐给你需要的朋友们!
(文:归藏的AI工具箱)