跳至内容
今年上半年,Kimi 在海外曾推出过一款 AI 生成 MV 的产品——Noisee.
最近我们发现,Kimi 将此能力移植到了国内的 Kimi 上。
快到年底了,如果回顾 2024 年的 AI 行业关键词,多模态和视频生成一定少不了。从开年的 Sora 开始,到国内各大厂商纷纷发布视频生成模型和产品,AI 视频生成越来越丰富。
最近,Kimi 风波热度居高不下。但今天特工不是带大家吃瓜的,而是带大家体验一下灰测的 AI 视频生成功能——Kimi 创作空间。
在 Kimi 网页版首页,被灰度到的用户可以在底部看到一个下拉指引箭头,点击进入创作空间。
点击创作音乐视频,进入 AI 视频创作,有模板选择和自定义创作两种模式,每天可免费生成共 100 秒的视频。
进入自定义创作,用户可以简便且个性化地创作音乐视频。
用户可以输入视频生成提示词,或者让 AI 帮写;左侧有背景音乐模块,官方准备了一些音乐资源,可以根据不同风格选择,也可以自己上传本地音乐文件,或者输入抖音视频分享链接。
至于视觉风格模板则可选可不选,不选风格系统就采用随机风格。
特工女巫以喜欢歌手华晨宇的《向阳而生-日出版》片段为例,尝试用 Kimi 创作一个 MV。
点击开始生成后,Kimi 会开始理解欣赏音乐,然后想象与音乐搭配的故事,再根据故事生成画面、最后将画面剪辑成完整视频。
在生成过程的页面大约会停留 5 分钟,这里的产品设计体验比较好,展现了 Kimi 在每个环节做的事情、图标和动画细节、底部百分比,能够让用户看见模型处理问题的过程,管理用户对各环节进展的预期。
不过相比即梦、通义、混元等视频生成竞品,速度稍慢了些,不知道是不是模型处理过程还有优化空间。
终于生成完毕,用户可以和 Kimi 一起开启视频的视听之旅(喜欢这个页面的文案和按钮,有种拆礼物的感觉)。
开启视频后,可以看到视频主画面位于中央,画面上方可以下载和重命名,左侧是关键场景画面的时间轴,点击某个时间点的画面,右侧还会出示与之相应的提示词,并且可以编辑修改这个片段的提示词,然后重新生成。
生成的视频有较好的语义理解、指令遵循对齐能力,画面可以准确全面地还原提示词描述,甚至用户不需要会写提示词,Kimi 直接扩充完善了更多描述并生成画面。
如果用户不愿意或者不太会自己创作,也可以直接套用模板风格创作。
Kimi 官方预置好了 12 款不同风格的创作模板,包括赛博朋克风、太空漫游风、摇滚风、末日风等特色主题,还有一些著名影视作品风格如哈利波特风、花样年华风、情书风、Lalaland 风等。
用户首先选择风格模板,然后在内容描述内输入自然语言文字指令,并且还有系统自动配好的风格主题背景音乐。
如果用户不知道怎么写描述,还可以用“帮我写”让 AI 一键生成视频创作提示词。
Kimi 会将整个视频生成目标拆分为每个画面的子任务,每个部分有对应的分解提示词,再将部分生成的画面组合成完整视频。
也正是有此类似 CoT 的生成过程,用户才可以对时间轴里的某些部分的画面独立进行编辑修改。
从风格、到描述、到音乐,Kimi 都可以一揽全包,让用户以很低的操作门槛无脑生成视频。
模板视频的创作过程,以及浏览、编辑、下载流程,和自定义创作一样。那么我们直接来看看效果。
下面是完整 15 秒,哈利波特风格,特工女巫在禁林奇遇的故事。
可以看出 Kimi 生成的视频整体有不错的质量:场景环境描绘符合风格特色质感,人物的五官头发、面部表情、身体运动有较好的逻辑和美感,光线阴影处理也比较自然真实;并且让人感到惊喜的是,画面可以跟随背景音乐自动卡点切换和转场,增加了生成视频的可观赏性和视听体验。
但是美中不足的是,动作幅度和流畅度表达一般,也暂时没有看到更丰富的运镜变换。
Kimi 这波用视频+音乐地创作范式,结合了复杂问题拆解分步解决的思路,生成遵循对齐程度高、主体和环境逻辑与审美较好的视频,并且操作过程中给用户一些可控可感的小惊喜,以及连接了抖音的内容生态。
虽然视频生成的运动连贯流畅、镜头画面专业程度、生成速度和等待时间,还不如其他视频生成模型竞品,但我们依然可以期待 Kimi 的视频创作可以越做越好。
如果有小伙伴也被灰度到了,欢迎评论区留言创作使用体验,交流作品或者一起吐槽~
(文:特工宇宙)