深圳技术大学归档

多模态语音表征新突破！CoGenAV：高效、鲁棒、通用的语音识别“利器”

下午2时 2025/06/11 作者小兵的AI视界

通义联合深圳技术大学推出的CoGenAV模型通过融合音频和视觉信息，显著提升了语音识别和处理性能。仅需223小时标记数据即可训练，展现出极高的数据效率，并在多种语音处理任务中表现出色。