字节发布通过多模态大模型实现的AI自动视频广告剪辑框架,输入产品信息和素材自动生成带货视频。

之前有很多朋友问,有没有AI剪辑的开源软件。

 

确实是有,但是感觉没什么太大的亮点。

 

今天给大家推荐的这个开源自动剪辑项目可是牛了,是字节开源的,而且定义就是用于制作广告视频。

 

大家想用类似软件,也大概率都去剪辑带货视频了。

 

字节自己开源的这类项目,含“金”量肯定是有的。

 

项目简介

 

在短视频时代,高效、智能的视频编辑需求日益增长。Text-to-Edit是字节跳动团队提出的一种基于多模态大语言模型的端到端视频广告创作框架。该框架通过文本输入实现对视频内容的精确控制,用户只需提供产品信息和编辑要求,系统即可自动生成视频编辑草稿,涵盖剪辑顺序、旁白脚本和装饰元素。项目创新性采用高帧率采样和慢-快处理技术,显著提升了视频时空信息的理解能力。通过自由提示机制,用户可轻松定制视频风格,满足多样化需求。

 

DEMO

 

 

 

技术特点

 

 

1. 多模态大语言模型(MLLMs)

 

多模态大语言模型是该项目的基础,它能够同时处理文本、图像和视频等多种模态的信息。

 

2. 高帧率采样与慢-快处理技术

 

为了更好地理解视频中的时空信息,项目采用了高帧率采样和慢-快处理技术:

 

•  高帧率采样:通过以每秒2帧(fps)的频率采样视频帧,模型能够更敏感地捕捉视频中的时间变化。这种方法显著增强了模型对视频动态变化的理解能力。

 

•  慢-快处理技术:模型同时使用两条路径处理视频帧。

 

•  慢路径:以较低帧率(如0.5fps)处理帧,但每帧分配更多token,用于捕捉详细的时空信息。

 

•  快路径:以高帧率(如2fps)处理帧,但每帧分配较少token,专注于捕捉快速变化的场景。这种双路径策略平衡了视频的时空信息和语义信息,显著提升了模型对视频内容的理解能力。

 

3. 文本驱动的编辑

 

文本驱动的编辑机制允许用户通过文本输入精确控制视频编辑的结果。用户可以指定视频的时长、故事线、目标受众、脚本风格、强调的产品卖点等信息。模型根据这些文本提示生成符合用户需求的视频编辑草稿,从而确保输出内容的高度可控性和多样性。

 

4. 视频编辑的具体实现

 

•  视频帧的嵌入与处理:视频帧首先通过视觉编码器(如CLIP或OpenCLIP)转换为嵌入向量。这些向量与文本嵌入向量一起输入到LLM中,模型通过自注意力机制处理这些嵌入向量,生成视频编辑的草稿。

 

•  草稿生成与后处理:模型输出的草稿包括视频剪辑的排列顺序、旁白脚本和装饰元素(如背景音乐、数字人形象等)。这些草稿通过后处理(如语音合成、音乐检索等)最终生成可渲染的视频。

 

项目链接

 

https://text2edit.github.io/

 

 关注「开源AI项目落地」公众号

(文:开源AI项目落地)

《字节发布通过多模态大模型实现的AI自动视频广告剪辑框架,输入产品信息和素材自动生成带货视频。》有1条评论

发表评论