千问深夜发布第二大视觉语言模型!

在人工智能领域的竞争日益激烈之际,阿里云旗下的千问团队 2025 年 3 月 25 日凌晨发布了重磅消息 – Qwen2.5-VL-32B-Instruct 模型正式问世。

这一消息的发布恰逢 DeepSeek V3 新版本发布之后,昨晚 DeepSeek 也发布了 DeppSeek V3 新版本,不过低调的连个新闻稿都没有,今天已经被广大网友整的性能对比图满天飞了。

今天主要聊聊千问新模型。

千问新模型的突破性进展

千问团队此次推出的 Qwen2.5-VL-32B-Instruct 模型在多个方面都实现了重要突破:

  1. 模型规模优化:针对”72B太大,7B不够用”的市场痛点,推出了最优性价比的32B规模模型

  2. 性能全面提升:通过强化学习进一步优化,在人类偏好和数学推理方面都取得显著进步

  3. 基准测试成绩亮眼 – 视觉能力提升

    • 在 MMMU(多模态理解)测试中得分超过70分
    • 在 MathVista(数学视觉推理)中展现出强大的解题能力
    • 在 DocVQA(文档视觉问答)测试中达到业界领先水平
  1. 基准测试成绩亮眼 – 纯文本能力也同样优秀

在线体验

访问 https://chat.qwen.ai/ 即可体验千问新模型。

模型选择 Qwen2.5-VL-32B-Instruct 即可。

开源地址 https://huggingface.co/Qwen/Qwen2.5-VL-32B-Instruct

示例一:细粒度图像理解和推理

这个示例子中,图中标志了不同车型的限速,问的是 “我正在这条路上开一辆大卡车,现在是 12 点。我能在 13 点之前到达 110 公里外的地方吗?” 虽然提示词中没有说当前车的限速,但是需要根据图中信息推断出当前车的限速进一步推断能否到达。

千问回答

因为数学公式千问的在线版本展示有 bug,我整理了下后续回答内容如下所示,大家可以看下推理过程,和上图是接着的。

  1. 计算所需时间

根据公式:

  • 如果以最高限速 100 公里/小时 行驶:

即需要 1 小时 6 分钟

  • 如果以最低限速 60 公里/小时 行驶:

即需要 1 小时 50 分钟

  1. 分析可行性
  • 由于可用时间为 1 小时,而即使以最高限速行驶也需要 1 小时 6 分钟,因此在不违反交通规则的情况下,你无法在 13 点之前到达目的地。
  1. 其他可能的干扰因素
  • 路况:如果路上有拥堵、施工或其他障碍,实际行驶时间可能会更长。
  • 停车检查:大卡车通常需要遵守交通法规,例如停车休息或接受检查,这也会影响行程时间。
  1. 结论 在遵守交通规则的前提下,你无法在 13 点之前到达 110 公里外的地方。

千问的回答从始至终是在点子上的,推理过程非常完整,而且有理有据。

DeepSeek 回答

DeepSeek 的回答虽然也给出了推理过程,并且结果也是对的,但是过程是错的。也没办法,现在 DeepSeek 没有多模态的能力,它识别的图片也只是识别出了图片中的文字,并没有理解图片中的内容。

示例二:细粒度图像理解

这个示例完全展示了千问细粒度图像理解的能力,用户提问 “这是什么”,千问对一些细节的描述非常到位。

感兴趣的朋友可以体验下,还是很优秀的!

总结

在这个快速发展的 AI 时代,模型的演进速度远超预期。无论是千问还是 DeepSeek,都在用自己的方式推动着技术边界的扩展。对于开发者和企业用户来说,这意味着有了更多优质的选择,也预示着 AI 应用将迎来更广阔的发展空间。让我们期待这场良性竞争能为 AI 技术发展带来更多突破性进展。


(文:AI智见录)

欢迎分享

发表评论