在线教程丨3款声音克隆模型真实测评，GPT-SoVITS精准拿捏「石矶娘娘」特点

作者：大头

编辑：xixi，李宝珠

转载请联系本公众号获得授权，并标明来源

HyperAI超神经官网上线了 3 款主流音色克隆模型的一键部署教程，大家快来体验吧！

春节档电影「哪吒 2」的票房一路高歌猛进，现已突破 120 亿，成为中国首部票房达到百亿大关的影片，已成功跻身全球影史票房榜前 10。影片中，配音演员们用灵动的声音赋予了角色鲜活的生命力，从哪吒的「烟嗓」到太乙真人的四川方言，再到石矶娘娘的灵动，引发了大众的广泛讨论，让幕后配音艺术走到台前。

提及配音艺术的魅力，「王者荣耀」芈月的白晶晶皮肤堪称绝佳例证。官方特邀「大话西游」电影中的白晶晶原配音演员王蕙君再度献声。「你我都要相信，放下也是一种天意」，熟悉的台词响起，多少人青春的意难平被瞬间唤醒，玩家们纷纷为这份情怀「慷慨解囊」。

而如今，声音克隆技术飞速发展，依托先进的声音克隆大模型，普通人也能跨越时空，一键复刻心仪角色的独特音色，轻松过把「配音瘾」！目前，GPT-SoVITS、Fish Speech v1.4 和 F5-E2 TTS 这 3 款主流开源模型脱颖而出，凭借各自独特优势，在不同应用场景发挥关键作用，无论是影视创作、有声内容生产，还是日常趣味配音，都能找到它们的身影。

HyperAI超神经官网的「教程」板块已经上线了：

* GPT-SoVITS 音频合成在线 Demo：

https://hyper.ai/cn/tutorials/29812

* Fish Speech v1.4 声音克隆-文本转语音工具 Demo：

https://hyper.ai/cn/tutorials/34680

* F5-E2 TTS 只需 3 秒克隆任何音色：

https://hyper.ai/cn/tutorials/35468

今天，小编就给大家详细介绍这 3 款声音克隆开源模型，并使用同一段原始音频及 prompt，帮大家测评一下实际使用效果！

GPT-SoVITS 音频合成

* 发布时间：2022 年

* 发布机构：B 站 up 主花儿不哭

* 一键部署：

https://hyper.ai/cn/tutorials/29812

* prompt：老娘我超绝心态管理，做什么都会成功的！

该模型采用 SoVITS+Transformer 语音编码技术，一经推出便在 AI 语音合成圈引起轰动。其高保真的语音合成效果堪称一绝，哪怕只有 5 秒的声音样本，就能实现零样本文本到语音 (TTS) 转换。

以哪吒电影中石矶娘娘的音色为例，使用 GPT – SoVITS，仅需采集一段石矶娘娘在影片中的经典台词音频作为样本，就能将其可爱活泼且充满力量的音色精准复刻。

Fish Speech v1.4 声音克隆

* 发布时间：2024 年

* 发布机构：Fish Audio 团队

* 一键部署：

https://hyper.ai/cn/tutorials/34680

* prompt：老娘我超绝心态管理，做什么都会成功的！

该模型经过了大约 15 万小时的数据训练，能够熟练掌握中文、日语和英语，其语言处理能力接近人类水平，并且声音表现形式丰富多变。用户可自由调整音色、音高、语速，轻松打造专属声音，满足大家在不同创作场景对角色声音的个性化需求。

小编对石矶娘娘的音色进行了细致调整，将音色的尖锐度降低，但仍带有一种清亮感。

F5-E2 TTS 只需 3 秒克隆任何音色

* 发布时间：2024 年

* 发布机构：上海交通大学、剑桥大学和吉利汽车研究院（宁波）有限公司

* 一键部署：

https://hyper.ai/cn/tutorials/35468

* prompt：老娘我超绝心态管理，做什么都会成功的！

F5 TTS 基于流匹配的非自回归生成方法，结合了扩散变换器 (DiT) 技术，能够在没有额外监督的情况下，通过零样本学习快速生成自然、流畅且忠实于原文的语音。而 E2 TTS 的核心在于它完全非自回归的特性，它可以一次性生成整个语音序列，而不需要逐步生成，从而显著提高了生成速度并保持了高质量的语音输出，3 秒实现多音色混合克隆。

该模型支持 3 个功能：

* 单人语音生成 (Batched TTS) : 根据上传的音频进行文本生成。

* 双人语音生成 (Podcast Generation) ：根据双人音频模拟双人对话。

* 多种语音类型生成 (Multiple Speech-Type Generation) ：可根据同一讲话人不同情绪下的音频，生成不同情绪的音频。

对比之下不难发现，F5-E2 TTS 对于石矶娘娘的音色克隆效果不如 GPT-SoVITS 和 Fish Speech v1.4 准确。但是其优势在于，除了单人语音生成外，还支持双人对话，以及多语音类型的生成。

小编以孙悟空和哪吒为例，生成了二人的对话 ↓

* prompt：

孙悟空：俺老孙战力强，但也可以和你讲道理！

哪吒：听不懂，我烂命一条就是干！

以上就是我们为大家准备的声音克隆模型评测，感兴趣的小伙伴速来亲自体验吧！

✦

抽奖赠书

HyperAI超神经联合人民邮电出版社为大家带来了赠书福利！我们准备了 5 本人工智能普及书籍：「人工智能简史」，快来参与抽奖吧~

参与方式

关注 HyperAI超神经公众号，并在后台回复「人工智能简史」，点击抽奖页面参与抽奖，我们共为大家准备了 5 本图书，快递包邮送到您手中，快来参与吧！

图书简介

如果只能选一本人工智能普及读物，尼克老师的《人工智能简史》无疑是最佳选择。

这是第一本详解 AI 历史的书，作者以幽默轻松的笔调，汇总了 200 多位思想家、科学家在 AI 发展过程中的关键贡献，清晰梳理了人工智能的发展脉络、演化路径，还深刻点评了 AI 发展过程的成功经验与失败教训，阐述了技术发展背后的哲学和原理。

凭借其专业性、思想性和趣味性，该书获得了业内专家的高度认可，成为 AI 领域最畅销的科普书，并荣获中华优秀出版物奖、文津图书奖等多项荣誉。无论是非专业人士入门，还是专业人士深入了解 AI 历史，这本书都能提供指导。

往期推荐

戳“阅读原文”，免费获取海量数据集资源！

（文：HyperAI超神经）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复