视频大模型无损提速:删除多余token,训练时间减少30%,帧率越高效果越好 NeurIPS
卡内基梅隆大学提出了一种新的视频大模型加速方法Run-Length Tokenization(RLT),通过将连续相同的图像块合并为一个token,使得Transformer的视频处理速度大幅提升。精度几乎没有损失的前提下,训练时间可缩短30%,推理阶段提速率可达67%。
卡内基梅隆大学提出了一种新的视频大模型加速方法Run-Length Tokenization(RLT),通过将连续相同的图像块合并为一个token,使得Transformer的视频处理速度大幅提升。精度几乎没有损失的前提下,训练时间可缩短30%,推理阶段提速率可达67%。
卡内基梅隆大学提出RLT方法,利用视频中重复图像块合并成token技术,显著提升Transformer视频生成速度,训练时间缩短30%,推理阶段提速67%。