单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2
智源研究院联合上海交通大学发布新一代超长视频理解模型Video-XL-2,单张显卡即可高效处理万帧视频,编码2048帧仅需12秒。该模型在多个维度表现优异,并向社区开放权重,有望在影视分析、异常检测等场景中广泛应用。
智源研究院联合上海交通大学发布新一代超长视频理解模型Video-XL-2,单张显卡即可高效处理万帧视频,编码2048帧仅需12秒。该模型在多个维度表现优异,并向社区开放权重,有望在影视分析、异常检测等场景中广泛应用。
上海交通大学、北京智源研究院和特伦托大学的研究团队推出了一种新的超长视频理解大模型Video-XL-Pro,该模型通过创新的重构式令牌压缩技术实现了近一万帧视频的单卡处理,并在多个基准测试中超越了此前发布的大型模型。