OCR感知能力归档

视频理解“隐秘的角落”：多任务视频文本理解评测新基准VidText发布

下午4时 2025/06/12 作者 PaperWeekly

VidText 提出了一套全面的视频文本理解基准，覆盖 27 个真实场景和多种语言。它包含从视觉感知到跨模态推理的多个任务，评估模型在不同粒度上的表现，并揭示了影响性能的关键因素。