CoGenAV 归档 - 每时AI

多模态语音表征新突破！CoGenAV：高效、鲁棒、通用的语音识别“利器”

2025年6月11日14时作者小兵的AI视界

通义联合深圳技术大学推出的CoGenAV模型通过融合音频和视觉信息，显著提升了语音识别和处理性能。仅需223小时标记数据即可训练，展现出极高的数据效率，并在多种语音处理任务中表现出色。

2025年5月29日8时作者 NLP工程化

CoGenAV 框架结合 ResNet 3D CNN 和 Transformer 编码器提取音视频特征，并通过对比生成同步训练提升模型理解能力，实现‘听清+看懂’多模态理解。