说话人相似度归档

MiniMax推出高质量文本转语音模型MiniMax-Speech

2025年5月17日8时作者 NLP工程化

MiniMax发布的新模型MiniMax-Speech通过可学习的说话人编码器和Flow-VAE架构提高了文本转语音的质量与保真度，在零样本情况下实现了跨语言合成，多项测试中表现优异。

2025年5月3日14时作者小兵的AI视界

F5R-TTS是一款基于流匹配技术的新型文本到语音（TTS）系统，通过引入强化学习算法特别是梯度奖励策略优化（GRPO），显著提升了语音合成的清晰度和说话人相似度。该系统在零样本语音克隆任务中表现出色，在多语言支持、情感控制及速度调整等方面也具有优势。