AI视频越来越稳,我们遇到了最好的时代

一首诗,一个视频

周末,在家做了一个视频。


旁白来自我7年前的一首诗《我是即将到来的日子》,今天终于用视频把它呈现了出来。

南方的冬天

总是冷得人“畏手畏脚”

春啊春

你什么时候才会出现?

窗外灯火通明

小巷人头攒动,叨絮不停

看来今夜又是不眠夜

我翻开泛黄日记

像是走进一片公墓

我查看发霉信件

像在进行一场世纪对话

打开手机后

才知2017已恍如隔世

时光流逝啊我流逝

流逝在我的所有有生之年

成长的一切匆匆离去

离去的一切一去不返

一生究竟还有多远的路

需要我去走

我的世界已半片荒芜

我是我自己

我是即将来到的日子

注:视频里,将时间改成了2024。
坦白说,对于视频制作,我是小白。如果放7年前,要我来做这样一个视频。不说时间,光是这学习成本和拍摄成本就够我头疼的。

而现在,借助AI,只需要半天时间,就能够直出这样的视频。

我是怎么做的?
最开始,我计划这样子做。
先想一些画面关键词。


然后让AI帮我优化,我自己再微调。


不行!出的视频真的很差,人物一致性完全不可控,画面也没有美感。而且,你要让我自己去想每一个镜头,去组织语言描述每一个画面,挺考验我的。
前几天,给大家介绍了一个AI视频提示词生成器(文章详情),这下完全打开了我的思路。
参照脚本万能模板:镜号、场景、景别、镜头、字幕/旁白、时长、音乐/音效、画面关键词,我写了一个脚本。


传统的脚本,写到这里就完了;而AI时代的脚本,还得再加上视频提示词。


视频提示词从何而来?直接将画面关键词发给「视频提示词生成器」Agent就可以了。


Agent体验地址:

https://yuanbao.tencent.com/chat/e3fYJmogwC8q

然后,将得到的视频提示词发给AI视频模型,开始抽卡,收集素材。
这里,我用的是混元视频模型,抽卡很少。很多时候,一次抽卡就能够得到想要的镜头。


比如这些,都是一次生成的镜头片段。
prompt:五秒延时摄影,展示夜晚的城市宛如一幅静谧而神秘的画卷。厚厚的白雪如一块巨大的白色绒毯,铺满了城市的每一个角落。雪花在寒风中肆意飘舞,街道两旁的灯光洒落在雪地上,映照出斑驳的光影。许多车辆在道路上不停穿梭,车灯划破黑暗,留下一道道流光溢彩的轨迹。

prompt:夜幕低垂,城市的灯火如同点点繁星,在大雪纷飞的背景下闪烁着温暖的光芒。航拍镜头,展现出城市上空银装素裹的壮丽景象。雪花如同轻盈的羽毛,在空中旋转飘落,覆盖了每一寸土地和建筑。街道上的车辆川流不息,留下一道道流光溢彩的轨迹。高楼大厦的轮廓在雪花的映衬下显得更加清晰而神秘

prompt:夜幕低垂,城市上空雪花纷飞。街道两旁的霓虹灯映照着雪花,闪烁着梦幻般的光芒。摄像机捕捉着这一刻的静谧与美好,雪花在镜头前飞舞,仿佛要将整个城市都装点成银白的世界

prompt:冬日夜晚,镜头聚焦在一个十字路口。雪花纷纷扬扬地飘落,给这座城市披上了一层洁白的外衣。行人们穿着厚厚的冬装,在风雪中走过十字路口。镜头缓缓推进,捕捉到一群行人正踩着积雪,走过十字路口。行人的呼吸在冷空气中凝结成雾气,与飘落的雪花交织在一起。整个场景充满了动感与生命力。

prompt:夜晚,在温暖的灯光下,一个25岁、黑色头发、穿着深蓝色T桖的亚洲男子孤独地站在窗前。窗外,大雪纷飞,白雪覆盖了整个城市。男人静静地看着这雪景,眼神深邃而迷离,仿佛陷入了深深的沉思。雪花不断敲打着窗户,发出轻微的声响,却似乎无法打破他的沉思。摄像机缓缓推进,从男人的背后慢慢靠近他的脸庞,捕捉到他眼中的迷茫和思索。整个场景笼罩在一种静谧而略带忧郁的氛围中,让人不禁对这个男人的故事产生了深深的遐想。
一个小技巧,文生视频想要保持人物一致性,其实挺难的。行业内,一般都是通过图生视频来做。
这里,我用了固定描述【一个25岁、黑色头发、穿着深蓝色T桖的亚洲男子】去限定主体,使得整支视频看起来像是同一个人。
关于主体人物描述的提示词,可参考这个万能模板。
Hair + Age & Gender + Color of the clothes + Environment + Other (Action, Camera, etc.),头发+年龄性别+衣服颜色+环境+其他(动作、相机等)。
最后,就是剪辑了。


视频剪辑,我是小白,于是请教了下朋友@Pp。
Pp建议:剪辑跟写文章一样,也是一次创作,是基于一堆乱七八糟的素材去做二次创作。通常是用音乐和画面去讲一个故事,有时候是根据音乐节奏来剪,有时候是根据画面内容来剪。每首音乐都是有情绪的,你找到符合你故事情绪的音乐节奏来剪,基本就不会出错。
于是,花了一点时间,这支视频就出来了。

写在最后
不得不说,AI时代人人都是导演,就这么悄无声息地来了。
视频,被公认为是生成式AI最难攻破的领域,但它又是AI多模态必须去攻破的领域。
而现在,多家China AI,真就给我们、给全人类都交出了最出色的答卷。

先是可灵带头猛追Runway、Luma,接着海螺凭借想象力在海外大杀四方,清影用开源诠释真·OpenAI,即梦通过快速迭代让行业调转车头,Vidu用多主体一致性强解AI视频难题。以及最新的混元,凭借异常稳定的画面表现和开源精神,一度抢走了本应属于Sora的舞台

每一家都在各自的领域,让China AI在全世界大放异彩。
这是最好的时代,通过AI,任何人都可以创造出影像级的视频。
不在未来,就在此刻。

(文:沃垠AI)

欢迎分享

发表评论