ACL 2025 高分接收|高感情语音技术:逻辑智能小语种TTS破局之道

逻辑智能团队提出的数据优化驱动的声学建模框架成功打造了接近真人水平的泰语 TTS,覆盖语音、文本和注释三大类专项数据集,并采用先进的预处理流程。该模型支持高保真语音合成及零样本声音克隆,实验结果显示其在多场景下的优异性能。

7k星星爆火!用微信聊天记录训练一个自己的数字分身回信息,还能克隆声音回复语音消息。

通过微信聊天记录和语音消息,结合大语言模型与语音合成技术,打造高度个性化的数字分身。支持从CSV格式导出聊天数据并训练模型,实现自动回复文字和语音功能。

语音合成也遵循Scaling Law,太乙真人“原声放送”讲解论文 港科大等开源

Llasa团队分享了他们基于Transformer的语音合成模型的研究成果,该模型展示了通过扩展计算资源来提高语音合成效果的能力。研究揭示了训练时间和推理时间扩展对性能的影响,并开源了代码和权重以供其他研究人员参考。