VITA-Audio 归档

超低延迟的端到端语音模型！首次生成音频仅需53ms，比同级别模型快3-5倍！

2025年5月16日8时作者开源星探

VITA-Audio是一款由VITA团队开源的端到端语音模型，首次生成音频仅需53毫秒，比同类7B参数模型快3-5倍。它具有超低延迟、首向前向传播生成等优势，并支持多种任务。

2025年5月12日16时作者 PaperWeekly

音频输出，有效降低了体感延迟，但在生成首个音频片段时仍存在较高的等待时间，成为制约实时部署的关键瓶颈

2025年5月11日14时作者小兵的AI视界

一，成为人机交互的重要研究方向。然而，
现有的语音模型在流式处理中生成首个音频标记时仍面临高延迟问题

2025年5月10日8时作者 NLP工程化

VITA-Audio是一款高效的语音语言模型，显著降低音频生成延迟至53毫秒，并提升推理速度3-4倍。训练数据包含20万小时音频，已开源。