Qwen 2.5 Omni 果然没让人失望，7B 全模态模型拿下全球第一！

3月27日，通义千问团队重磅发布了 Qwen 2.5 Omni，这是一个革命性的全模态 AI 模型。它不仅能看、能听、能说、能写，还能实时对话，堪称 AI 领域的”全能选手” 。让我们一起来看看这个重量级产品带来了哪些惊喜。

一个模型搞定所有：革命性的全模态架构

还记得以前我们需要不同的 AI 模型来处理图片、视频、语音和文字吗？现在，Qwen 2.5 Omni 一个模型就能全部搞定。它采用了创新的”思考者-说话者”（Thinker-Talker）双核架构：

这种设计让 Qwen 2.5 Omni 能像人类一样自然地进行多模态交互，真正实现了”能看会说”。

在同等 7B 规模下，Qwen 2.5 Omni 展现出了令人惊叹的实力：

最让人印象深刻的是 Qwen 2.5 Omni 的实时交互能力：

打开千问 https://chat.qwen.ai/

点击输入框右侧的语音按钮，在弹出的列表中有两种模式：语音通话、视频通话供选择。

点击上面的语音通话后，会弹出以下窗口，就可以语音通话了，整个对话过程很流畅的，就像一个小助手在你身边。

点击切换声音按钮，可以选择你喜欢的声音。

如果你说的话比较长了，它可能需要一点时间理解。

点击视频通话，如下所示，会进行视频连接，接通之后你的面部表情、周边的事物它都可以给你捕获到并且给你聊天。

通义千问团队秉持开放共享的理念：

在 GitHub 开源了完整代码 https://github.com/QwenLM/Qwen2.5-Omni
发布了详细的技术报告 https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf
提供了多个平台的使用渠道：

（文：AI智见录）