最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格

中科大等团队提出VCR-Bench评估基准,用于评价视频理解中的CoT推理能力。该基准包含七个独立评估维度的任务框架,覆盖视觉感知和逻辑推理两大类别。结果显示当前多模态模型在复杂视频推理任务上表现不佳,最优模型仅获得62.8的CoT得分和56.7%的准确率。