全球首创!B站推出影视级TTS语音模型,支持零样本语音+情绪双克隆,精准时长控制!

近日B站语音团队推出的新一代语音合成模型IndexTTS2支持影视级音质、情绪克隆和时长控制。其核心模块包括输入处理、语音编码、情绪控制、时长控制和语音解码,提供零样本语音/情绪克隆和时长控制功能,并支持本地部署和双语支持。

字节开源MegaTTS3-轻量高效语音合成模型,Wan 团队开源 All-in-One 视频编辑框架 VACE

本文介绍了五种新兴的人工智能技术与系统:轻量级高效语音合成模型MegaTTS3、集视频创作与编辑于一体的AI模型VACE、半自动科学发现系统CodeScientist、终端AI编程助手Gemini Code,以及基于多智能体的医疗问诊框架hospital_multiagent_system。