CoGenAV 的核心理念是让 AI 模型也实现“音画同步”的深度理解 上午8时 2025/05/29 作者 NLP工程化 CoGenAV 框架结合 ResNet 3D CNN 和 Transformer 编码器提取音视频特征,并通过对比生成同步训练提升模型理解能力,实现‘听清+看懂’多模态理解。