在线教程丨3款声音克隆模型真实测评,GPT-SoVITS精准拿捏「石矶娘娘」特点

作者:大头

编辑:xixi,李宝珠

转载请联系本公众号获得授权,并标明来源

HyperAI超神经官网上线了 3 款主流音色克隆模型的一键部署教程,大家快来体验吧!

春节档电影「哪吒 2」的票房一路高歌猛进,现已突破 120 亿,成为中国首部票房达到百亿大关的影片,已成功跻身全球影史票房榜前 10。影片中,配音演员们用灵动的声音赋予了角色鲜活的生命力,从哪吒的「烟嗓」到太乙真人的四川方言,再到石矶娘娘的灵动,引发了大众的广泛讨论,让幕后配音艺术走到台前。

提及配音艺术的魅力,「王者荣耀」芈月的白晶晶皮肤堪称绝佳例证。官方特邀「大话西游」电影中的白晶晶原配音演员王蕙君再度献声。「你我都要相信,放下也是一种天意」,熟悉的台词响起,多少人青春的意难平被瞬间唤醒,玩家们纷纷为这份情怀「慷慨解囊」。

而如今,声音克隆技术飞速发展,依托先进的声音克隆大模型,普通人也能跨越时空,一键复刻心仪角色的独特音色,轻松过把「配音瘾」!目前,GPT-SoVITS、Fish Speech v1.4 和 F5-E2 TTS 这 3 款主流开源模型脱颖而出,凭借各自独特优势,在不同应用场景发挥关键作用,无论是影视创作、有声内容生产,还是日常趣味配音,都能找到它们的身影。

HyperAI超神经官网的「教程」板块已经上线了:

* GPT-SoVITS 音频合成在线 Demo:

https://hyper.ai/cn/tutorials/29812

* Fish Speech v1.4 声音克隆-文本转语音工具 Demo:

https://hyper.ai/cn/tutorials/34680

* F5-E2 TTS 只需 3 秒克隆任何音色:

https://hyper.ai/cn/tutorials/35468

今天,小编就给大家详细介绍这 3 款声音克隆开源模型,并使用同一段原始音频及 prompt,帮大家测评一下实际使用效果!

GPT-SoVITS 音频合成

* 发布时间:2022 年

* 发布机构:B 站 up 主花儿不哭

* 一键部署:

https://hyper.ai/cn/tutorials/29812


* prompt:老娘我超绝心态管理,做什么都会成功的!

该模型采用 SoVITS+Transformer 语音编码技术,一经推出便在 AI 语音合成圈引起轰动。其高保真的语音合成效果堪称一绝,哪怕只有 5 秒的声音样本,就能实现零样本文本到语音 (TTS) 转换。

以哪吒电影中石矶娘娘的音色为例,使用 GPT – SoVITS,仅需采集一段石矶娘娘在影片中的经典台词音频作为样本,就能将其可爱活泼且充满力量的音色精准复刻。

Fish Speech v1.4 声音克隆

* 发布时间:2024 年

* 发布机构:Fish Audio 团队

* 一键部署:

https://hyper.ai/cn/tutorials/34680

* prompt:老娘我超绝心态管理,做什么都会成功的!

该模型经过了大约 15 万小时的数据训练,能够熟练掌握中文、日语和英语,其语言处理能力接近人类水平,并且声音表现形式丰富多变。用户可自由调整音色、音高、语速,轻松打造专属声音,满足大家在不同创作场景对角色声音的个性化需求。

小编对石矶娘娘的音色进行了细致调整,将音色的尖锐度降低,但仍带有一种清亮感。

F5-E2 TTS 只需 3 秒克隆任何音色

* 发布时间:2024 年

* 发布机构:上海交通大学、剑桥大学和吉利汽车研究院(宁波)有限公司

* 一键部署:

https://hyper.ai/cn/tutorials/35468

* prompt:老娘我超绝心态管理,做什么都会成功的!

F5 TTS 基于流匹配的非自回归生成方法,结合了扩散变换器 (DiT) 技术,能够在没有额外监督的情况下,通过零样本学习快速生成自然、流畅且忠实于原文的语音。而 E2 TTS 的核心在于它完全非自回归的特性,它可以一次性生成整个语音序列,而不需要逐步生成,从而显著提高了生成速度并保持了高质量的语音输出,3 秒实现多音色混合克隆。

该模型支持 3 个功能:

* 单人语音生成 (Batched TTS) : 根据上传的音频进行文本生成。

* 双人语音生成 (Podcast Generation) :根据双人音频模拟双人对话。

* 多种语音类型生成 (Multiple Speech-Type Generation) :可根据同一讲话人不同情绪下的音频,生成不同情绪的音频。

对比之下不难发现,F5-E2 TTS 对于石矶娘娘的音色克隆效果不如 GPT-SoVITS 和 Fish Speech v1.4 准确。但是其优势在于,除了单人语音生成外,还支持双人对话,以及多语音类型的生成。

小编以孙悟空和哪吒为例,生成了二人的对话 ↓

* prompt:

孙悟空:俺老孙战力强,但也可以和你讲道理!

哪吒:听不懂,我烂命一条就是干!

以上就是我们为大家准备的声音克隆模型评测,感兴趣的小伙伴速来亲自体验吧!

抽奖赠书



HyperAI超神经联合人民邮电出版社为大家带来了赠书福利!我们准备了 5 本人工智能普及书籍:「人工智能简史」,快来参与抽奖吧~



参与方式

关注 HyperAI超神经公众号,并在后台回复「人工智能简史」,点击抽奖页面参与抽奖,我们共为大家准备了 5 本图书,快递包邮送到您手中,快来参与吧!



图书简介

如果只能选一本人工智能普及读物,尼克老师的《人工智能简史》无疑是最佳选择。

这是第一本详解 AI 历史的书,作者以幽默轻松的笔调,汇总了 200 多位思想家、科学家在 AI 发展过程中的关键贡献,清晰梳理了人工智能的发展脉络、演化路径,还深刻点评了 AI 发展过程的成功经验与失败教训,阐述了技术发展背后的哲学和原理。

凭借其专业性、思想性和趣味性,该书获得了业内专家的高度认可,成为 AI 领域最畅销的科普书,并荣获中华优秀出版物奖、文津图书奖等多项荣誉。无论是非专业人士入门,还是专业人士深入了解 AI 历史,这本书都能提供指导。

 往期推荐 

“阅读原文”,免费获取海量数据集资源!

(文:HyperAI超神经)

欢迎分享

发表评论