香港中文大学（深圳）开源的一款语音理解模型：Soundwave

香港中文大学（深圳）开源的一款语音理解模型：Soundwave，核心是它的语音文本智能对齐和理解能力。Soundwave 不仅能“听懂”话，把语音转换为文字，它更注重理解语音内容含义，支持更复杂的语音交互，比如语音翻译、语音问答等。具备智能对话能力，能基于语音内容进行智能对话，且保持对话的连贯性和智能性。用了1/50的训练数据（1万小时）就达到了与Qwen2-Audio相当的性能。

参考文献：
[1] github：https://github.com/FreedomIntelligence/Soundwave
[2]https://huggingface.co/papers/2502.12900
[3] https://huggingface.co/FreedomIntelligence/Soundwave
[4] https://arxiv.org/abs/2502.12900
[5] https://huggingface.co/spaces/puccho/Soundwave

（文：NLP工程化）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

发表评论取消回复