超长视频理解归档

CVPR 2025 Highlight｜AdaCM2：首个面向超长视频理解的跨模态自适应记忆压缩框架

下午11时 2025/06/09 作者机器之心

本文介绍了一篇被CVPR 2025接收的论文AdaCM2，该研究提出首个支持超长视频理解的跨模态记忆压缩框架。通过观察视频与文本交互过程中的帧内注意力稀疏性和层间语义冗余性，提出了逐帧回归式建模、跨模态注意力打分和分层压缩机制等关键技术点，显著提高模型性能并降低内存消耗。