VITA-Audio:一款高效的语音语言模型,能够快速生成音频和文本内容

VITA-Audio:一款高效的语音语言模型,能够快速生成音频和文本内容。亮点:1. 低延迟,首次音频生成时间从236毫秒缩短到53毫秒;2. 推理速度提升3-5倍;3. 开源数据训练,包含20万小时音频。

参考文献:
[1] http://github.com/VITA-MLLM/VITA-Audio
[2] https://arxiv.org/abs/2505.03739
[3] https://huggingface.co/collections/VITA-MLLM/vita-audio-680f036c174441e7cdf02575



知识星球服务内容:Dify源码剖析及答疑,Dify对话系统源码,NLP电子书籍报告下载,公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群

(文:NLP工程化)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往