克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
视频生成的当红明星可灵,也开始拥抱DeepSeek了。
现在,在可灵的图片和视频生成界面,可以直接调用R1帮忙设计提示词。
量子位实测发现,哪怕只打上去一个字,也能让R1把提示词给安排得明明白白。
比如下面的这只猫猫,就是靠一个“猫”字,经过R1设计之后让可灵生成的。
具体的提示词长这样,可以说用AI创作视频,现在连提示词都不需要学了。
那么DeepSeek帮忙设计的提示词,效果究竟如何?我们接着往下看。
AI创作不用学写提示词了
对简单提示词进行扩写,是可灵接入R1最直观的作用之一。
可灵已经给DeepSeek设定好了内置提示,所以我们只需要输入想生成的内容,不需要额外指示。
通过观察R1的思考过程,可以发现它会根据我们输入的内容,生成主体及其描述、动作,场景和运镜、光影等细节补充。
并且还会根据视频生成提示词的特点进行撰写,字数也控制在合适的范围。
当然除了扩充细节之外,对于一些视频生成模型可能无法直接理解的词句,R1也能将其变成场景描述。
比如成语“对牛弹琴”,如果不经优化直接当做提示词,生成效果是这样的:
内容好像确实是对着牛弹琴,但这里是一个外国人正在弹奏,看上去是一段悠闲的生活写照,很难让人直观地往成语的方向上去联想。
经过R1优化之后,提示词中开始强调了书生、古琴、茅屋这些特征。
再看效果,就显得贴近不少了:
成语之上再提高难度,那就是古诗词了,这里选择王维的《和贾舍人早朝大明宫之作》中的诗句“九天阊阁开宫殿,万国衣冠拜冕旒”。
直接输入的生成结果,基本场景还是能够正确呈现的,但总感觉诗句当中的华丽庄重没有体现出了,反而像是群演排队领盒饭。
而在理解诗意的基础之上,R1给出了这样的优化:
从运镜方式和光线来看,用优化后的提示词生成的视频的确能够更好地渲染出诗句里的恢弘之气。
继续增加难度,前面的这句诗虽然是古文,但至少是具体的场景描写,接下来就试一下不那么具体的。
这里选择岳飞《满江红》中的名句“三十功名尘与土,八千里路云和月”,R1给出了这样的提示词:
至于生成效果,还是直接看视频最直观:
最后再加试一道“外语题”,看看R1处理英文内容时能够撰写出怎样的提示词。
这里就选用泰戈尔《飞鸟集》中的著名诗句“生如夏花之绚烂,死如秋叶之静美” ,当然用的是英文原文:
let life be beautiful like summer flowers and death like autumn leaves.
从思考过程和最终得到的提示词看,R1准确识别出了这句话的中文含义,并且拆分成了两个具体场景。
效果看上去还可以,不过在时间分配上稍显得不够均衡,大部分都给了第二个镜头。
总的来说,在DeepSeek的帮助下,AI视频创作的提示词障碍基本被打破。
对于以后的AI创作者来说,可能真的要实打实地比拼创造力了。
还有视频镜头重建研究成果
产品接入DeepSeek的同时,可灵在学术研究上也发布了新成果——名为ReCamMaster的镜头重建工具。
准确地说,ReCamMaster是一个镜头可控的生成式视频再渲染框架。
它利用预训练的视频生成模型,通过巧妙而有效的视频条件注入机制,在给定源视频的情况下重新渲染出具有新相机轨迹的目标视频。
具体来说,ReCamMaster支持5类动作,每种又分为两个方向,一共是10种镜头操作。
具体的重建效果,这里直接展示最复杂的4D重建,其他效果可以到项目主页查看~
当然也可以反其道而行之,将抖动的影像重建成稳定画面:
此外作者还介绍,ReCamMaster还可以在具身智能和自动驾驶场景中,成为有效的数据增强工具。
不过ReCamMaster的模型尚未开放,想要尝试的话可以通过GitHub项目页里的表单把想生成的内容告诉作者,由作者筛选之后通过邮件回复。
该论文第一作者是浙大在读博士生白健弘,导师是胡浩基副教授,该成果是白健弘在快手实习中完成的。
快手方面,科技副总裁张迪、可灵大模型负责人万鹏飞都参与了这一项目。
浙大和快手的其他研究人员,以及香港中文大学、华中科技大学的研究人员也参与了此项目。
(文:量子位)