AI好好用报道
音频视频的同步生成,是时候开卷了~
没声音的 AI 视频,说白了就是个半成品。
看看这组数字:
去年抖音上传的 100 多亿条视频里,差不多八成都配了背景音乐。

来自 x @jasonzada
虽然每个画面都是用 Google Veo 2 靠文字生成的,但你猜怎么着?
作者最费劲的活儿反而是后期音效 ,全靠手动完成。


看来大家说的没错啊,视听同步生成还真是 AIGC 领域的下一个「硬骨头」!但好消息是,战斗已经打响了。
近期,伊利诺伊大学和索尼的联合团队搞出了一个配音工具 MMAudio——上传一段视频,不需要人工手动,系统可以自动生成合适的音频,效果很不错。
一个 8 秒的高质量音频片段仅需 1.23 秒!
工具链接:
官方 Demo 先走一波:
环境音效指的是场景中的背景声音,比如下雨声、河流声、风吹树叶的沙沙声、鸟叫声等自然环境的声音。
来自 X @cocktailpeanut
灾难现场的模拟。
来自X @blizaine
来自x @cocktailpeanut
就连一段苹果发布会的视频也能整出动静。你别说,挺合理,同样卡点准确!
上传一段法国小哥卖煎饼果子的视频,听听音效怎么样?
MMAudio 就像一个专业拟音师,通过生成与视频画面在语义和时间上都同步的自然声效,让视频内容更真实生动。
虽然它的主要目标不是生成音乐和人声,但研究表明,多模态联合训练并未影响其在单模态任务上的表现。

(文:AI好好用)