Qwen 2.5 Omni 果然没让人失望,7B 全模态模型拿下全球第一!

3月27日,通义千问团队重磅发布了 Qwen 2.5 Omni,这是一个革命性的全模态 AI 模型。它不仅能看、能听、能说、能写,还能实时对话,堪称 AI 领域的”全能选手” 。让我们一起来看看这个重量级产品带来了哪些惊喜。

一个模型搞定所有:革命性的全模态架构

还记得以前我们需要不同的 AI 模型来处理图片、视频、语音和文字吗?现在,Qwen 2.5 Omni 一个模型就能全部搞定。它采用了创新的”思考者-说话者”(Thinker-Talker)双核架构:

  • 思考者:就像人的大脑,负责理解文字、图片、声音和视频
  • 说话者:就像人的声带,能实时把想法转化为自然的语音

这种设计让 Qwen 2.5 Omni 能像人类一样自然地进行多模态交互,真正实现了”能看会说”。

实力碾压同行:性能测试显示惊人结果

在同等 7B 规模下,Qwen 2.5 Omni 展现出了令人惊叹的实力:

  • 图像理解能力超越 Qwen 2.5-VL-7B
  • 语音处理水平优于 Qwen2-Audio
  • 在 OmniBench 等多个权威测试中创下新纪录
  • 通用知识理解(MMLU)和数学推理(GSM8K)表现优异

让 AI 更接近人类:实时自然的交互体验

最让人印象深刻的是 Qwen 2.5 Omni 的实时交互能力:

  • 语音对话:像打电话一样自然流畅
  • 视频聊天:支持实时视频交互
  • 多模态理解:可以同时处理视频画面和声音
  • 即时响应:支持流式输出,反应快速自然

如何使用

打开千问 https://chat.qwen.ai/

点击输入框右侧的语音按钮,在弹出的列表中有两种模式:语音通话、视频通话供选择。

点击上面的语音通话后,会弹出以下窗口,就可以语音通话了,整个对话过程很流畅的,就像一个小助手在你身边。

点击切换声音按钮,可以选择你喜欢的声音。

如果你说的话比较长了,它可能需要一点时间理解。

点击视频通话,如下所示,会进行视频连接,接通之后你的面部表情、周边的事物它都可以给你捕获到并且给你聊天。

开放共享,推动行业进步

通义千问团队秉持开放共享的理念:

  • 在 GitHub 开源了完整代码 https://github.com/QwenLM/Qwen2.5-Omni
  • 发布了详细的技术报告 https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf
  • 提供了多个平台的使用渠道:
    • Hugging Face https://huggingface.co/Qwen/Qwen2.5-Omni-7B
    • ModelScope https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

(文:AI智见录)

欢迎分享

发表评论