字节开源MegaTTS3-轻量高效语音合成模型,Wan 团队开源 All-in-One 视频编辑框架 VACE
本文介绍了五种新兴的人工智能技术与系统:轻量级高效语音合成模型MegaTTS3、集视频创作与编辑于一体的AI模型VACE、半自动科学发现系统CodeScientist、终端AI编程助手Gemini Code,以及基于多智能体的医疗问诊框架hospital_multiagent_system。
本文介绍了五种新兴的人工智能技术与系统:轻量级高效语音合成模型MegaTTS3、集视频创作与编辑于一体的AI模型VACE、半自动科学发现系统CodeScientist、终端AI编程助手Gemini Code,以及基于多智能体的医疗问诊框架hospital_multiagent_system。
MegaTTS3 是字节跳动最新开源的 TTS 模型,仅 0.45B 参数,在普通设备上流畅运行并生成自然逼真的语音。它支持中英文混合场景和口音控制。