阿里最新Qwen VLo,多角度测评来了

 Datawhale测评 

实测:Eternity,Datawhale成员

笔者将基于ChatGPTQwen VLo使用相同提示词生成图片,在此基础上使用Qwen2.5-VL-32B-instruct美学质量指令遵循度真实感角度进行评价。测试从复杂指令理解与多重任务、复杂指令理解与多重任务、图像检测及标注、多语言文字生成图像等角度展开,笔者人为加大了难度,测评结果仅代表大模型与个人观点,不代表雇主观点。

测试1:复杂指令理解与多重任务

生成照片,图中男人带着黑帽子在地铁上看报纸,旁边是一个美丽的带红色墨镜年轻女性,还有一只=哈士奇,地铁的窗外是自由女神像,地铁的站牌显示“Qwen VLo”

左:ChatGPT,右:Qwen

Qwen2.5-VL-32B-instruct测评结果

美学质量
  • 第一张图片:构图平衡、色彩协调、细节丰富,整体氛围沉稳、视觉完成度高。
  • 第二张图片:构图简单、色彩单一、细节粗糙,氛围轻松但略显平淡。
指令遵循
  • 第一张图片:严格对应提示词的所有元素(人物、动作、服饰、动物、地铁场景等),无明显缺漏。
  • 第二张图片:虽然包含主要元素,但细节存在偏差,如站牌文字不完整、人物表情不符合描述。
真实感
  • 第一张图片:人物表情自然,环境与光影真实,动物细节处理精致,整体接近真实摄影。
  • 第二张图片:人物表情夸张、环境简化、动物不真实,画面平面感强。

测试2:图像生成

生成摆满水果的桌面

左:ChatGPT,右:Qwen


Qwen2.5-VL-32B-instruct测评结果

笔者注:本次生成结果,显然是Qw-en更胜一筹,以下是Qwen2.5-VL-32B-instruct测评结果,仅供参考

美学质量:

维度
第一张图片
第二张图片
果品分布对称、有序,整体构图均衡
摆放较为随意,缺乏明显的对称或结构
色彩搭配
多种水果色彩分明且相互衬托,整体色调明快
色彩丰富但偏暖,融合度较高,鲜艳度略低
细节处理
各类水果细节清晰(草莓籽、葡萄光泽等),层次感强
多数水果细节到位,部分(如橙子)光影处理较简单
桌面与背景
木质桌面纹理清晰,增强画面整体协调性
浅色桌面背景简洁,但纹理表现略少

指令遵循:

维度
第一张图片
第二张图片
多种水果是否齐全
包含葡萄、蓝莓、草莓、苹果、香蕉等丰富种类
包含苹果、橙子、葡萄、香蕉等,种类略少
是否“摆满”桌面
桌面密集覆盖水果,搭配碗盘,分布整齐
桌面水果分布较松散,部分直接置于桌面
是否使用桌面容器
多种容器,辅助整齐摆放
仅部分使用容器,整体布局较自由
桌面类型是否匹配
木质桌面,纹理清晰
浅色木质桌面,材质符合但细节较简略

真实感:

维度
第一张图片
第二张图片
水果细节
细节逼真,质感良好,如透明感、光泽、颗粒感等
多数细节表现良好,部分水果(如橙子)质感处理较弱
桌面质感
木质纹理清晰,色彩自然
桌面表现自然但细节略少
光影效果
高光与阴影过渡自然,增强立体感与材质表现
光影较为柔和,立体感与细腻度略逊一筹

测试3:图像检测及标注(预测边缘检测图)

ChatGPT生成结果

ChatGPT 4o在预测边缘检测图时,实际调用了Python代码,甚至还很贴心地给出了文字说明:可以更换不同的边缘检测方法。

Qwen生成结果

左:输入,右:边缘检测图

Qwen直接给出了边缘检测图,中间是否涉及到工具使用就不得而知了。

测试4:图像检测及标注(分割图像)

为了公平比较,使用测试2中Qwen生成的图像测试模型分割图像的能力。

用橙色mask分割图中香蕉的边缘

ChatGPT生成结果


ChatGPT依旧选择了使用工具,但基于HSV颜色空间的算法显然不太能够完成我们的任务。

Qwen生成结果

左:原始图像,中、右:2次生成结果


尝试了2次,目前无法复原po中的生成结果。

测试5:多图片理解及生成

将这些零食(每个品种的薯片各1罐、2瓶苏打水)放到购物车上层


左:ChatGPT,右:Qwen

看到ChatGPT生成的结果,笔者感慨万千,硬要鸡蛋里挑骨头——苏打水体积是小于薯片罐的,但这需要常识或者根据互联网资料,仅从图片中也无法推理得到。那再给ChatGPT加点难度:

将这些零食(每个品种的薯片各1罐、2瓶苏打水)放到购物车上层,下层购物篮放置1瓶苏打水、一罐洋葱味薯片

虽然多生成了一个四不像的东西,但甚至推理出了绿罐薯片是洋葱味的。

测试6:多语言文字生成图像

作为一个图形学博主(bushi),笔者使用ChatGPT o3根据光线追踪场景生成了一份中英文提示词用于测试多语言文字生成图像能力

左:光线追踪场景,右:提示词

左:ChatGPT,右:Qwen

参考资料

Qwen VLo:从“看懂”世界到“描绘”世界


作者:Eternity,Datawhale成员

往期作品:
1. 一文详尽之LLM-Based Agent
2. 完整解读:从DeepSeek Janus到Janus-Pro!
3.一文读懂向量数据库,原理到应用全解析!
知乎主页:
https://www.zhihu.com/people/AlbertRen

(文:Datawhale)

发表评论