超级爆火的TTS模型：Kokoro！荣登 TTS Arena 排行榜第一名，小巧轻量高性能！

点击上方“蓝色字体”关注我，每天推送“实用有趣的项目”！

随着人工智能的不断进步，文本转语音（TTS）技术已经成为我们日常生活中不可或缺的一部分。

从语音助手到有声读物，再到角色配音，TTS 的应用场景日益广泛。

然而，尽管市面上已有众多 TTS 模型，但它们往往需要庞大的计算资源，这对许多开发者和中小型企业来说是一个不小的挑战。

最近，一款名为 Kokoro TTS 的开源 TTS 模型凭借其高效能和轻量化设计迅速窜红。它不仅在TTS排行榜上名列前茅，还以其独特的性能吸引了众多开发者和用户的关注。

这个仅拥有 82M 参数的高效 TTS 模型，只需轻轻一点，就能在几秒钟内生成几分钟的高质量语音。不需要昂贵的设备，也不需要复杂的配置。

项目简介

Kokoro TTS，又名 Kokoro-82M，是一个新晋的开源文本转语音模型。

与那些动辄数亿参数的大型模型相比，它显得异常轻量。然而，轻量化并未牺牲性能，Kokoro TTS在CPU上即可实现近乎实时的语音生成，而在GPU端则能达到惊人的50倍实时速度。

这意味着，你可以在几秒钟内生成几分钟的高质量语音，而无需高端硬件的支持。

这一性能表现，使得 Kokoro TTS 在 TTS 排行榜中冲至第一，成为业界的新宠。

该模型不仅支持中文，还兼容多达五种语言，充分展示了其语言处理的多样性和灵活性。

核心亮点

• 参数小，性能强：Kokoro TTS 拥有仅 82M 参数，与其他需要庞大资源的模型相比，它显得格外高效。
• 多语言支持：支持中文、韩语、日语、法语、英语等五种语言。
• 多人物音色支持：提供了多达18种男女人物音色。
• 实时语音生成：在普通CPU上，Kokoro TTS可以近乎实时生成语音，而在GPU上，生成速度更是快到了令人难以置信的50倍实时速度。
• 自然的语音合成：Kokoro TTS 生成的语音自然流畅，接近人类语音。无论是用于语音助手、有声读物，还是角色配音，均能提供高质量的语音体验。

快速使用

你可以通过 HuggingFace 在线体验，直接试用 Kokoro TTS，感受其快速的语音生成能力和高质量的输出。

只需选择好语言、输入文本、选择音色，即可生成语音了。

语音结果：

如果你是开发者，想将其集成到你的项目程序中，也可下载模型进行调用。

具体代码如下：

# 1️⃣ Install dependencies silently
!git lfs install
!git clone https://huggingface.co/hexgrad/Kokoro-82M
%cd Kokoro-82M
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
!pip install -q phonemizer torch transformers scipy munch

# 2️⃣ Build the model and load the default voicepack
from models import build_model
import torch
device = 'cuda' if torch.cuda.is_available() else 'cpu'
MODEL = build_model('kokoro-v0_19.pth', device)
VOICE_NAME = [
    'af', # Default voice is a 50-50 mix of Bella & Sarah
    'af_bella', 'af_sarah', 'am_adam', 'am_michael',
    'bf_emma', 'bf_isabella', 'bm_george', 'bm_lewis',
    'af_nicole', 'af_sky',
][0]
VOICEPACK = torch.load(f'voices/{VOICE_NAME}.pt', weights_only=True).to(device)
print(f'Loaded voice: {VOICE_NAME}')

# 3️⃣ Call generate, which returns 24khz audio and the phonemes used
from kokoro import generate
text = "How could I know? It's an unanswerable question. Like asking an unborn child if they'll lead a good life. They haven't even been born."
audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME[0])
# Language is determined by the first letter of the VOICE_NAME:
# 🇺🇸 'a' => American English => en-us
# 🇬🇧 'b' => British English => en-gb

# 4️⃣ Display the 24khz audio and print the output phonemes
from IPython.display import display, Audio
display(Audio(data=audio, rate=24000, autoplay=True))
print(out_ps)

写在最后

Kokoro TTS 的出现，打破了人们对 TTS 技术的固有印象。它以小巧的身材和强大的功能，重新定义了 TTS 模型的可能性。

在这个技术快速更迭的时代，Kokoro TTS为我们展示了轻量级模型也能拥有强大性能的无限潜力。对于语音克隆爱好者及配音人员，也提供了一个新的创作渠道。

或许下一个语音革命的主角，正是它。

在线体验地址：https://huggingface.co/spaces/hexgrad/Kokoro-TTS

模型地址：https://huggingface.co/hexgrad/Kokoro-82M

● 一款改变你视频下载体验的神器：MediaGo

● 新一代开源语音库CoQui TTS冲到了GitHub 20.5k Star

● 最新最全 VSCODE 插件推荐（2023版）

● Star 50.3k！超棒的国产远程桌面开源应用火了！

● 超牛的AI物理引擎项目，刚开源不到一天，就飙升到超9K Star！突破物理仿真极限！

（文：开源星探）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

项目简介

核心亮点

快速使用

写在最后

发表评论 取消回复

发表评论取消回复