Github揽获1.6K星!南大、腾讯发布VITA-1.5: 迈向GPT-4o级实时视频-语音交互 下午4时 2025/01/09 作者 PaperWeekly 近年来,多模态大语言模型(MLLMs)主要聚焦在视觉和文本模态的融合上,对语音的关注较少。然而,语音
阿里开源的声音克隆TTS重磅升级,CosyVoice2支持流式输出,更加流畅自然,用户。 下午7时 2024/12/19 作者 开源AI项目落地 阿里的CosyVoice2迎来重大升级,通过流式合成输出大幅降低语音识别和合成的延迟,提升软件、硬件交互体验。该模型支持多种语言及情感控制功能,已在多个开源项目中得到应用。