作者|子川
来源|AI先锋官
最近,阿里推出了一项黑科技——OmniTalke,只需给它一段参考视频,它就能学会视频里人物的表情以及克隆其声音,甚至还能模仿说话风格。
就像下面这样——
比如我们先给OmniTalke一段罗翔老师早期在B站的视频,让它学罗老师是怎么说话、什么表情”。
随后给它一段文字,它就能生成相应的数字人视频。
提示词:听说现在有人拿AI复刻我的声音和形象,搞的大家分不出来真假,啊,你们这个被抓起来,是要判三年的。
除了说中文外,还能让罗翔老师实现出海,生成他讲英文的视频。
文本:我试试说几句英文,啊,I’ve heard that nowadays, some people are using AI to replicate my voice and appearance, making it hard for everyone to tell the difference between real and fake. Yet, if they get caught, they could be sentenced to three years in prison.
这效果,简直了!!!
无论是声音还是表情都模仿得惟妙惟肖,简直就跟罗翔老师本人,而且无论是英文还是中文,口型和声音保持高度的统一。
再来一段视频,比如上传一段大家非常喜欢的博主@小Lin说的视频。
输入文本:想象一下,你面前站着的是一个完全由代码构建却仿佛真人般鲜活的2D数字人。它不仅有着细腻入微的表情变化,每一个眼神、每一次微笑都能准确传达出参考人物的情感特质。
还有雷军的数字人视频,上传雷军入驻B站时的视频。
输入文本:喜欢小米的小朋友们你们好,我是雷军,今天我当了一个小时的中国首富,感谢大家捧场。
就像视频中所展示的那样,OmniTalker除了可以复制表情和声音外,还能复制该人物说话的风格。
像以往,我们想要生成一个类似的数字人视频,首先需要准备一张人物的大头照,并获取一段该人物的声音去进行克隆,最后再是输入提示词生成相应的数字人视频。
关键是市面上很多数字人产品,生成的数字人视频机械感贼重,并且声音和口型高度不统一。
而如今,OmniTalker彻底改变了以往数字人的交互方式,只需提供一段视频,就能让它完美复制视频中人物的表情、声音。
目前OmniTalker还没有成熟产品,不过大家可以期待一下。
论文:https://arxiv.org/html/2504.02433
下面是小编简单总结了一下OmniTalker的核心技术。
OmniTalker 的核心技术
双分支扩散变换器架构:OmniTalker 采用了独特的双分支扩散变换器(DiT)架构。它包含两个主要分支:音频分支和视觉分支。
音频分支负责从文本中合成高质量的语音,而视觉分支则专注于预测头部姿势和面部动态。
这两个分支通过一个新颖的音频-视觉融合模块紧密相连,确保音频和视频输出在时间上的同步性和风格上的一致性。
上下文参考学习模块:OmniTalker 能从一个参考视频里“偷学”说话人的风格,比如语音的音色、语调,还有面部的表情、动作,然后把它应用到生成的视频里。
流匹配技术:这是一种高效训练方法,能让模型更快地学习和生成内容,就像给汽车装上了涡轮增压,让整个系统跑得更快。
OmniTalker 的优势
实时交互:它反应超快,能达到每秒25帧的实时推理速度,满足直播和实时交互的需求。
多模态融合:支持文本、图像、音频和视频等多种输入方式,无缝整合多模态信息,生成高质量的语音和视频。
风格保留:它能把参考视频里的风格学得惟妙惟肖,生成的视频就像原版的“克隆”。
计算效率:通过流匹配技术和紧凑的模型架构(0.8B参数),在保持高质量输出的同时实现实时推理。
OmniTalker 的创新点
统一多模态框架:首次将文本到音频和文本到视频生成集成在一个模型中,通过跨模态融合实现同步输出。
简单来说就是以前生成语音和视频需要分开做,现在OmniTalker 把它们合在一起,一步到位。
上下文多模态风格复制:不需要额外的训练数据,只要一个参考视频,就能实时生成风格一致的说话头像。
实时效率:通过技术创新实现高质量输出的同时保持实时推理能力。
可扩展的数据管道和多模态训练:自动化预处理系统和高效的多阶段训练方法,支持大规模多模态数据的处理和训练。
(文:AI先锋官)