项目简介
Sketch2Sound:音频版ControlNet
输入音频+提示词,即可修改音频的声音效果,同时完美保持输入音频的节奏。演示视频的效果太精彩了,尤其是最后一段。
我们推出了 Sketch2Sound,这是一种生成音频模型,能够根据一组可解释的时变控制信号(响度、亮度、音调以及文本提示)创建高质量的声音。 Sketch2Sound 可以从声音模仿(即声音模仿或参考声音形状)合成任意声音。
Sketch2Sound 可以在任何文本到音频潜在扩散转换器 (DiT) 之上实现,并且只需要 40k 步微调和每个控件一个线性层,使其比 ControlNet 等现有方法更轻量级。为了从类似草图的声音模仿中进行合成,我们建议在训练期间对控制信号应用随机中值滤波器,从而允许使用具有灵活的时间特异性水平的控件来提示 Sketch2Sound。
我们证明,Sketch2Sound 可以从声音模仿中合成遵循输入控制要点的声音,同时与纯文本基线相比,保持对输入文本提示和音频质量的遵守。 Sketch2Sound 允许声音艺术家利用文本提示的语义灵活性以及声音手势或声音模仿的表现力和精确度来创建声音。
项目链接
项目地址:https://hugofloresgarcia.art/sketch2sound/
论文:https://arxiv.org/abs/2412.08550
扫码加入技术交流群,备注「开发语言-城市-昵称」
(文:GitHubStore)