TTS模型归档 - 每时AI

Fish Audio 的 OpenAudio S1：新一代语音生成，让机器也能“声临其境”！

2025年6月17日14时作者小兵的AI视界

OpenAudio S1 是 Fish Audio 推出的多语言 TTS 模型，基于超过200万小时的音频数据训练，采用双自回归架构和强化学习与人类反馈技术。支持13种语言、40亿参数版本及5亿参数开源版，并具备零样本语音克隆功能。

在线教程丨刷新TTS模型SOTA，OpenAudio S1基于200万小时音频数据训练，深刻理解情感及语音细节

2025年6月13日16时作者 HyperAI超神经

HyperAI超神经官网推出OpenAudio-s1-mini教程，介绍高效文本转语音生成工具。OpenAudio S1包含OpenAudio-S1和OpenAudio-S1-mini版本，在大规模音频数据上训练，参数扩展至40亿，并引入奖励建模及RLHF训练机制，显著提升音频质量、情感表达和说话人相似度。该模型仅需每百万字节15美元（约0.8美元/小时），支持多种情感、语调和特殊标记。HyperAI超神经提供免费RTX 4090资源体验OpenAudio-s1-mini功能。