VITA-Audio:一款高效的语音语言模型,能够快速生成音频和文本内容 2025年5月10日8时 作者 NLP工程化 VITA-Audio是一款高效的语音语言模型,显著降低音频生成延迟至53毫秒,并提升推理速度3-4倍。训练数据包含20万小时音频,已开源。