香港中文大学(深圳)开源的一款语音理解模型:Soundwave,核心是它的语音文本智能对齐和理解能力。Soundwave 不仅能“听懂”话,把语音转换为文字,它更注重理解语音内容含义,支持更复杂的语音交互,比如语音翻译、语音问答等。具备智能对话能力,能基于语音内容进行智能对话,且保持对话的连贯性和智能性。用了1/50的训练数据(1万小时)就达到了与Qwen2-Audio相当的性能。



参考文献:
[1] github:https://github.com/FreedomIntelligence/Soundwave
[2]https://huggingface.co/papers/2502.12900
[3] https://huggingface.co/FreedomIntelligence/Soundwave
[4] https://arxiv.org/abs/2502.12900
[5] https://huggingface.co/spaces/puccho/Soundwave
(文:NLP工程化)