92ms极速Token响应！VITA团队开源实时语音大模型，推理效率暴增5倍

在人机交互日益普及的背景下，语音以其自然、便捷的优势正成为主流交互方式。虽然已有多款语音模型支持流式音频输出，有效降低了体感延迟，但在生成首个音频片段时仍存在较高的等待时间，成为制约实时部署的关键瓶颈。

针对这一挑战，VITA 团队最新推出了突破性成果—VITA-Audio。作为一款端到端的语音模型，VITA-Audio 能在第一次前向传播中直接生成可解码的 Audio Token Chunk，大幅提升响应速度。

在 7B 参数规模下，VITA-Audio-7B 从接收文本到输出首个包含 8 个 Audio Token 的可解码片段仅需 92 ms；若不计入 Audio Encoder 时间，延迟进一步缩短至 53 ms。整体推理速度相比同规模模型提升 3–5 倍，充分满足实时交互对低延迟的严格要求。

同时，VITA-Audio 支持中英双语，且训练过程中仅使用开源数据，却在同等参数量级中稳居性能第一梯队。项目训练和推理代码以及模型权重完全开源，为构建高效、低延迟的实时语音交互系统树立了全新标杆。

论文地址：

https://arxiv.org/pdf/2505.03739

代码仓库：

https://github.com/VITA-MLLM/VITA-Audio

如何高效生成Audio Token？

在端到端语音模型中，生成音频往往要经历以下流程：首先，语音 Token 随着语言模型（LLM）前向传播被逐步自回归地生成；随后，多个已生成的语音 Token 会被收集并送入解码器，最终合成为可播放的音频。

由于每一步都依赖上一步的输出，这种多次循环推理的方式在生成首个音频片段前会消耗大量时间，且随着模型规模的扩大，延迟问题愈发严重。

为深入理解这一瓶颈，VITA-Audio 团队对模型最后一层解码器的 Hidden States 进行了可视化分析。结果表明，语音模型在预测某个音频 Token 时，对应的文本 Token Hidden States 所承载的注意力权重显著高于其他位置。

更进一步的实验发现：

当屏蔽所有文本位置的 Hidden States 时，模型无法生成正常的音频；
但如果仅保留与当前音频 Token 对应的那一位置的文本 Hidden States，模型依然能够输出准确、连贯的语音，且这些 Hidden States 已隐含了足够的上下文信息（例如，区分多音字“行”读作“xíng”还是“háng”）。

这一发现表明，语音生成并不需要对整个文本—音频序列的全局语义空间进行复杂建模；相反，只需利用对应位置的文本 Hidden States，通过相对简单的映射模块即可完成高质量的音频 Token 预测。

基于此，VITA-Audio 提出了一种轻量级的多重跨模态标记预测（Multiple Cross-modal Token Prediction，MCTP）模块。该模块直接在单次前向传播中预测多个音频 Token，大幅减少自回归循环次数，不仅加速了整体推理流程，更显著降低了流式场景下首个音频片段的生成延迟。

方法概述

模型结构

VITA-Audio 的核心组件包括音频编码器、音频解码器、LLM、十个轻量级 MCTP 模块。其推理流程如下：

1. 文本与音频特征分别经编码后输入 LLM，LLM 在单次前向传播中生成文本 Token 或音频 Token。

2. 将 LLM 最后一层的隐藏态和输出先输入第一个 MCTP 模块，其输出再依次传递给后续的 9 个 MCTP 模块；每个模块各自预测一个音频 Token，累计得到 10 个 Token，并由音频解码器合成为音频片段。

3. 在下一次前向传播中，LLM 生成的 Token 会与 MCTP 模块生成的音频 Token 一并作为 LLM 输入，进行下一次前向传播。

由于每个 MCTP 子模块的参数量远小于 LLM，单次预测耗时仅需约 2.4 ms（约为 LLM 推理时间的 11%），显著降低了首个音频片段的生成延迟，并大幅提升整体推理速度。

训练策略

为了解决同时从头训练10个 MCTP 模块带来的不稳定性，VITA-Audio 采用了如下四阶段渐进式训练策略：

1. 第一阶段-音频–文本对齐：利用大规模语音预训练任务，将音频建模能力融入 LLM，使其 Hidden states 同时承载文本和音频信息。

2. 第二阶段-单 MCTP 模块训练：训练初始 MCTP 模块，使其能够基于 LLM 的输出 Token 和 Hidden States 预测下一个标记。

3. 第三阶段-多 MCTP 模块训练：将首个 MCTP 模块的能力扩展到多个 MCTP 模块，每个模块根据前一个 MCTP 模块的输出标记和 Hidden States 预测其对应位置的标记。

4. 第四阶段-监督微调：以语音问答数据集为主进行监督微调，同时穿插 TTS、ASR 及纯文本数据，确保模型在各类任务上的泛化能力与训练收敛的平衡。

推理模式

VITA-Audio 提供四种推理范式，以满足不同应用场景对速度与质量的平衡需求：

VITA-Audio-Turbo：最高效的方式，每次前向传播 LLM 生成一个标记，MCTP 模块生成 10 个标记，但因 MCTP 模块也参与文本预测，性能会略有下降，常用于 ASR 和 TTS 任务中。

VITA-Audio-Boost：LLM 专注生成文本 Token，MCTP 模块生成 Audio Token，并且第一次前向中就使用全部的 MCTP 模块，可以在第一次前向中就生成可以用于解码的 Audio Token Chunk。

VITA-Audio-Balance：在前两次前向中仅激活部分 MCTP 模块，保以维持文本与音频 Token 的合理配比（1:2），随后逐步激活部模块，通过动态调节文本／音频 Token 输出比例，实现生成速度与质量的最优平衡。

VITA-Audio-Vanilla：完全依赖 LLM 自回归生成所有 Token，不调用 MCTP 加速模块，推理速度最慢，但可获得最高的音频细节与一致性。

性能评估

模型能力

作为一款完全基于开源数据训练的模型，VITA-Audio 在 TTS、ASR 及 Speech QA（涵盖 Llama Question、Seed-TTS 与 WenetSpeech）等任务中表现卓越，在同等参数规模的开源模型中表现位列第一梯队。

并且 S→T（语音输入文本输出）和 S→S（语音输入语音输出）之间的性能下降仅有 4 个点，表明 VITA-Audio 在文本和语音模态之间实现了高质量对齐。

推理加速

高效的文本–语音映射是 VITA-Audio 的核心优势。在不同规模的模型中，VITA-Audio 均展现了显著的推理加速效果：Turbo 模式下，从 0.5B 到 72B 参数规模均可实现约 5 倍的吞吐量提升；Speed 模式下，各尺寸模型亦获得约 3 倍加速，为实时语音对话系统提供了理想性能。

且随着模型规模的增大，加速效果愈加显著—即便在 72B 参数级别，VITA-Audio 也能达到每秒约 50 个 Token 的生成速度，配合 12.5 Hz 音频解码器即可合成约 3 秒的音频及对应文本，其性能完全能够满足高流畅度的人机交互需求。

延迟评估

在人机交互中，响应延迟是一项关键性能指标。

整体实验表明，VITA-Audio 能将首个 Audio Token Chunk 的生成时间从 236 ms 缩短至 53 ms，显著提升了系统的实时交互能力。

不同推理模式下的实际表现

VITA-Audio-7B 在 Boost 模式下生成速度约为 Vanilla 的 3 倍。

VITA-Audio-7B 在 Turbo 模式下生成速度约为 Vanilla 的 5 倍。

总结

本文介绍了 VITA-Audio，这是一个轻量级框架，其核心在于引入独立高效的多重跨模态令牌预测（MCTP）模块，能够直接从文本 Token 与 LLM Hidden States 中生成音频响应，无需依赖 LLM 的全局语义建模，仅通过简单映射即可完成文本隐藏态到音频令牌的转换。

实验表明，VITA-Audio 在仅仅使用开源数据的情况下，在 ASR、TTS 和 SQA 任务的多个基准测试中均跻身同参数量级开源模型的第一梯队；同时，其推理速度与响应延迟也取得了显著突破。由此，VITA-Audio 为实时语音到语音生成树立了全新的范式。

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

（文：PaperWeekly）

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

如何高效生成Audio Token？

方法概述

模型结构

性能评估

模型能力

总结

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复