VITA-Audio：一款高效的语音语言模型，能够快速生成音频和文本内容

VITA-Audio：一款高效的语音语言模型，能够快速生成音频和文本内容。亮点：1. 低延迟，首次音频生成时间从236毫秒缩短到53毫秒；2. 推理速度提升3-5倍；3. 开源数据训练，包含20万小时音频。

参考文献：
[1] http://github.com/VITA-MLLM/VITA-Audio
[2] https://arxiv.org/abs/2505.03739
[3] https://huggingface.co/collections/VITA-MLLM/vita-audio-680f036c174441e7cdf02575

知识星球服务内容：Dify源码剖析及答疑，Dify对话系统源码，NLP电子书籍报告下载，公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群。

（文：NLP工程化）

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复