最近在做的一个应用要用到TTS,看到字节新开源的TTS,实测玩了玩。
你们有没有发现,在国内找个声音克隆做得好的应用还不太容易,可能在合规上比较难。
难也有可能是机会。
字节开源的MegaTTS3,参数只有0.45B,速度快到快到飞起!
但是有优点就有缺点,目前只支持中英两种语言。
如果要求小语种的话,这个TTS肯定不是你的菜。
实测下来效果还是很好的,远超我的预期。
一个周点了4200星,肯定不是吃干饭的。

扫码加入AI交流群
获得更多技术支持和交流
(请注明自己的职业)

项目简介
MegaTTS3 是字节开源的官方PyTorch实现的TTS项目。有很多亮点,模型轻量高效,骨干网络仅 0.45B 参数;支持超高质量的语音克隆,能在 Huggingface Demo 体验;具备双语能力,可实现中文和英文的代码切换;还能进行可控调节,如控制口音强度等。
DEMO
我自己也实测了下。
这是原音频。
这是生成的,内容是我随便copy的,可以忽略。
内容:
Upload a speech clip as a reference for timbre, upload the pre-extracted latent file, input the target text, and receive the cloned voice. Tip,a generation process should be within
功能特点
轻量高效:TTS Diffusion Transformer 骨干网络仅含 0.45B 参数,降低了模型运行的资源消耗,提升了处理效率。
功能丰富:支持口音强度控制,能满足不同场景下对语音口音的多样化需求。同时,具备细粒度发音和时长调整功能(即将上线),可实现对语音更精准的控制。
超高质量语音克隆:可在 Huggingface Demo 体验模型效果。通过特定链接提交样本,获取.npy 语音潜码,在本地实现高质量语音克隆。
https://huggingface.co/spaces/ByteDance/MegaTTS3
双语支持:对中文和英文均提供良好支持,并且允许代码切换,适应多语言交流场景。
技术优势显著:与其他开源 TTS 模型相比,在 SEED 测试集上,MegaTTS3 的中、英文语音合成在字符错误率、词错误率、相似度等指标表现出色。 WaveVAE 在重建质量上优势明显,能将 24kHz 语音压缩为 25Hz 声学潜码,且几乎无损重建原始波形。
项目链接
https://github.com/bytedance/MegaTTS3
关注「开源AI项目落地」公众号
(文:开源AI项目落地)