长视频理解新突破!Mamba混合架构让显存消耗腰斩,处理10万视频token不费力

滑铁卢大学陈文虎团队提出Mamba-Transformer混合模型Vamba,通过改进模型架构设计提升视频理解效率。相比传统方法,Vamba在同等硬件条件下可处理的视频帧数提升4倍,内存消耗降低50%以上,并实现单步训练速度翻倍。