多模态语音表征新突破!CoGenAV:高效、鲁棒、通用的语音识别“利器”

通义联合深圳技术大学推出的CoGenAV模型通过融合音频和视觉信息,显著提升了语音识别和处理性能。仅需223小时标记数据即可训练,展现出极高的数据效率,并在多种语音处理任务中表现出色。