与业内先进的同规模模型进行比较,包括近期推出的 Mistral-Small-3.1-24B 和 Gemma-3-27B-IT, Qwen2.5-VL-32B-Instruct 展现出了明显的优势,甚至超越了更大规模的 Qwen2-VL-72B-Instruct 模型。尤其是在多模态任务中,例如 MMMU、MMMU-Pro 和 MathVista,这些任务强调复杂的多步骤推理,Qwen2.5-VL-32B-Instruct 表现尤为突出。在注重主观用户体验评估的 MM-MT-Bench 基准测试中,该模型相较于其前代 Qwen2-VL-72B-Instruct 取得了显著进步。




参考文献:
[1] https://qwenlm.github.io/zh/blog/qwen2.5-vl-32b/
[2] https://huggingface.co/Qwen/Qwen2.5-VL-32B-Instruct/tree/main
[3] https://huggingface.co/spaces/Qwen/Qwen2.5-VL-32B-Instruct
(文:NLP工程化)