视频大模型无损提速:删除多余token,训练时间减少30%,帧率越高效果越好 NeurIPS

卡内基梅隆大学提出了一种新的视频大模型加速方法Run-Length Tokenization(RLT),通过将连续相同的图像块合并为一个token,使得Transformer的视频处理速度大幅提升。精度几乎没有损失的前提下,训练时间可缩短30%,推理阶段提速率可达67%。