阿里Qwen家族又添猛将！Qwen2.5-Omni能看能听能说能写，性能超越Gemini，视频实时互动。

🍹 Insight Daily 🪺

Hi，这里是Aitrainee，欢迎阅读本期新文章。

阿里 Qwen 家族添新丁：Qwen2.5-Omni，一个真正的“Omni”全能模型。

这款新模型号称能看、能听、能说、能写，还能实时响应。文本、图片、音频、视频，一个模型全搞定。

自家 Qwen Chat 也用上了，还能语音、视频直接聊，跟真人似的。

体验地址：https://chat.qwen.ai/

社区也热赞，虽然也有人说离 GPT 还差点，但这波开源全能操作确实很顶。

更重要的是，团队把 Qwen2.5-Omni-7B 开源了，用的 Apache 2.0 协议。

技术报告也一起发了，里面细节都有。

现在开发者和企业可以免费下载商用，手机这种端侧智能硬件也能轻松部

署运行。

想深入了解的，各种传送门都准备好了：

Github里面的部署教程很详细，很容易上手。

官方放了不少 Qwen2.5-Omni 在真实场景里的 demo，挺有意思。

它现在有四个声音可选：说话带停顿语气，听着挺自然。

能干啥呢？

厨房帮手：你拿着食材问它咋做，或者让它看看厨房有啥调料推荐用法，它能实时分析给建议。对厨房小白挺友好。

音乐点评：放段音乐给它听，它能判断风格、调性，还能对原创歌曲的词、节奏给点意见。

绘画参谋：看到草图，它能理解画的啥，还能给构图提建议。

户外观察/学习辅助：还能判断天气、辅助解题、读论文。多模态能力确实通用。

性能跑分这块，Qwen2.5-Omni 表现咋样？

在需要同时处理多种信息的任务上 (比如 OmniBench)。Qwen2.5-Omni 直接登顶 SOTA，拿了 56.13%，把第二名 Gemini 1.5 Pro 的 42.91% 甩开不少。

单项能力也没落下，看官方列出来的：语音识别、翻译、音频理解、图像推理、视频理解、语音合成…… 都很擅长。

柱状图摆在那儿，对比看得很清楚，蓝色条（Qwen2.5-Omni）在大部分项目上都顶在前面：

那它是怎么做到这么“全能”的？

Qwen2.5-Omni 用了一套自研的“Thinker-Talker”双核架构。可以把它想象成大脑和嘴巴协同工作。

“Thinker” 模块，就像是大脑。

它负责接收和处理各种输入，比如文字、声音、图像、视频。它的任务是理解这些信息的深层含义，并生成相应的文本内容。技术上，它基于 Transformer 解码器，并融合了专门的音频和图像编码器来提取特征。它会共享整个对话的上下文信息，形成一个统一的模型结构。

“Talker” 模块，则像是嘴巴。

它从 “Thinker” 那里实时接收理解好的语义信息和文本，然后流畅地合成语音输出。它用的是一种双轨 Transformer 解码器设计，能直接利用 “Thinker” 输出的高维信息，让语音合成更自然。

网友们催更移动版上线。

估计很多人都想使用实时视频，毕竟电脑使用不太方便。

也有考虑和硬件结合，app开发的。

官方也说了，后面还有更强的版本在路上，输出图片、视频、音乐啥的，可以期待下。

🌟 知音难求，自我修炼亦艰，抓住前沿技术的机遇，与我们一起成为创新的超级个体（把握AIGC时代的个人力量）。

点这里👇关注我，记得标星哦～

（文：AI进修生）