预训练ASR 归档

CoGenAV 的核心理念是让 AI 模型也实现“音画同步”的深度理解

2025年5月29日8时作者 NLP工程化

CoGenAV 框架结合 ResNet 3D CNN 和 Transformer 编码器提取音视频特征，并通过对比生成同步训练提升模型理解能力，实现‘听清+看懂’多模态理解。