
阿里通义千问这段时间的产出速度太猛了,又上线了QVQ-Max 视觉推理模型
据说通义在这个方向上已探索了一段时间,在Qwen Chat)直接就可以体验:
https://chat.qwen.ai
只需上传任意图片或视频,然后尽管提问,并点击“思考中”(Thinking) 按钮,就能一步步看到模型处理视觉信息的过程
多图像识别
数学推理
手相解读
视频理解
QVQ-Max的能力可以总结为三个方面:细致观察、深入推理和灵活应用
总结一下:

参考:
https://qwenlm.github.io/zh/blog/qvq-max-preview/
⭐
(文:AI寒武纪)