语音语言模型归档 - 每时AI

VITA-Audio：一款高效的语音语言模型，能够快速生成音频和文本内容

上午8时 2025/05/10 作者 NLP工程化

VITA-Audio是一款高效的语音语言模型，显著降低音频生成延迟至53毫秒，并提升推理速度3-4倍。训练数据包含20万小时音频，已开源。

24小时，一块GPU，就能训练出顶级语音模型

下午4时 2025/02/27 作者 NLP工程化

本文提出了Slam训练秘诀，在单张GPU和24小时资源限制下高效训练高质量语音语言模型，显著提升AI研究效率。