20万小时归档 - 每时AI

VITA-Audio：一款高效的语音语言模型，能够快速生成音频和文本内容

2025年5月10日8时作者 NLP工程化

VITA-Audio是一款高效的语音语言模型，显著降低音频生成延迟至53毫秒，并提升推理速度3-4倍。训练数据包含20万小时音频，已开源。