VITA-Audio:一款高效的语音语言模型,能够快速生成音频和文本内容 上午8时 2025/05/10 作者 NLP工程化 VITA-Audio是一款高效的语音语言模型,显著降低音频生成延迟至53毫秒,并提升推理速度3-4倍。训练数据包含20万小时音频,已开源。