零样本语音克隆归档

F5R-TTS：腾讯出品，TTS领域的新王者？流匹配+强化学习，语音克隆新高度！

下午2时 2025/05/03 作者小兵的AI视界

F5R-TTS是一款基于流匹配技术的新型文本到语音（TTS）系统，通过引入强化学习算法特别是梯度奖励策略优化（GRPO），显著提升了语音合成的清晰度和说话人相似度。该系统在零样本语音克隆任务中表现出色，在多语言支持、情感控制及速度调整等方面也具有优势。

下午11时 2025/04/23 作者开源AI项目落地

TTS工具Spark-TTS由SparkAudio开发，支持中文和英文，基于5亿参数的Qwen2.5 LLM和BiCodec技术。它具有零样本语音克隆、中英混合生成等功能，实现跨语言场景应用。

下午4时 2025/04/19 作者机器之心

最新研究提出F5R-TTS系统，通过概率化输出和GRPO优化方法成功将强化学习整合到非自回归TTS中，显著提升语音合成质量。

上午11时 2025/04/10 作者 GitHubStore

Spark-TTS 是一个先进的文本到语音系统，利用大型语言模型实现高度准确和自然的声音合成。它简洁高效，支持零样本语音克隆及双语支持，具备可控语音生成功能。

下午12时 2025/03/09 作者 GitHubStore

一种基于大语言模型的高效文本转语音系统，采用BiCodec编码简化架构，提升推理效率，并实现零样本语音克隆和精细控制。

上午8时 2025/03/08 作者开源星探

Spark-TTS 是一款全新的高质量语音合成系统，支持零样本语音克隆、细粒度语音控制、跨语言生成等功能。它结合了 BiCodec 编解码器和 Qwen-2.5 思维链技术，实现自然且高效的语音生成，适用于多种场景如有声读物、多语言内容及AI角色配音。