多模态评估归档

最强o1也刚刚及格！中科大等团队测试视频CoT推理能力：多数模型不及格

下午11时 2025/04/17 作者量子位

中科大等团队提出VCR-Bench评估基准，用于评价视频理解中的CoT推理能力。该基准包含七个独立评估维度的任务框架，覆盖视觉感知和逻辑推理两大类别。结果显示当前多模态模型在复杂视频推理任务上表现不佳，最优模型仅获得62.8的CoT得分和56.7%的准确率。