RISEBench归档 - 每时AI

GPT-4o-Image仅完成28.9%任务！上海AI实验室等发布图像编辑新基准，360道人类专家严选难题

下午4时 2025/05/30 作者量子位

上海人工智能实验室等团队发布全新图像编辑评测基准RISE，评估了九个视觉编辑模型的复杂指令理解和执行能力。结果显示GPT-4o-Image仅能完成28.9%的任务，显著低于预期；RISEBench覆盖时间、因果、空间和逻辑四种核心推理类型，为视觉编辑模型的发展提供了新的视角。