全球首创!B站推出影视级TTS语音模型,支持零样本语音+情绪双克隆,精准时长控制!

近日B站语音团队推出的新一代语音合成模型IndexTTS2支持影视级音质、情绪克隆和时长控制。其核心模块包括输入处理、语音编码、情绪控制、时长控制和语音解码,提供零样本语音/情绪克隆和时长控制功能,并支持本地部署和双语支持。