GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑新基准,360道人类专家严选难题
上海人工智能实验室等团队发布全新图像编辑评测基准RISE,评估了九个视觉编辑模型的复杂指令理解和执行能力。结果显示GPT-4o-Image仅能完成28.9%的任务,显著低于预期;RISEBench覆盖时间、因果、空间和逻辑四种核心推理类型,为视觉编辑模型的发展提供了新的视角。
上海人工智能实验室等团队发布全新图像编辑评测基准RISE,评估了九个视觉编辑模型的复杂指令理解和执行能力。结果显示GPT-4o-Image仅能完成28.9%的任务,显著低于预期;RISEBench覆盖时间、因果、空间和逻辑四种核心推理类型,为视觉编辑模型的发展提供了新的视角。