视频理解“隐秘的角落”:多任务视频文本理解评测新基准VidText发布 下午4时 2025/06/12 作者 PaperWeekly VidText 提出了一套全面的视频文本理解基准,覆盖 27 个真实场景和多种语言。它包含从视觉感知到跨模态推理的多个任务,评估模型在不同粒度上的表现,并揭示了影响性能的关键因素。