最先进的闭源和开源模型归档

多模态大模型不会画辅助线？最新评估得分：o3仅25.8%，远低于人类82.3% 清华腾讯斯坦福联合

上午11时 2025/05/28 作者量子位

清华大学等机构联合发布RBench-V，评估大模型的视觉推理能力。结果显示表现最好的模型o3准确率仅为25.8%，远低于人类的82.3%。论文在Reddit机器学习社区引发讨论。