阿里Qwen家族又添猛将!Qwen2.5-Omni能看能听能说能写,性能超越Gemini,视频实时互动。

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

阿里 Qwen 家族添新丁:Qwen2.5-Omni,一个真正的“Omni”全能模型。
这款新模型号称能看、能听、能说、能写,还能实时响应。文本、图片、音频、视频,一个模型全搞定。
自家 Qwen Chat 也用上了,还能语音、视频直接聊,跟真人似的。
体验地址:https://chat.qwen.ai/

社区也热赞,虽然也有人说离 GPT 还差点,但这波开源全能操作确实很顶。


更重要的是,团队把 Qwen2.5-Omni-7B 开源了,用的 Apache 2.0 协议。

技术报告也一起发了,里面细节都有。

现在开发者和企业可以免费下载商用,手机这种端侧智能硬件也能轻松部

署运行。

想深入了解的,各种传送门都准备好了:

  • 论文地址:https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf

  • 博客地址:https://qwenlm.github.io/blog/qwen2.5-omni/

  • GitHub 地址:https://github.com/QwenLM/Qwen2.5-Omni

  • Hugging Face 地址:https://huggingface.co/Qwen/Qwen2.5-Omni-7B

  • ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

Github里面的部署教程很详细,很容易上手。


官方放了不少 Qwen2.5-Omni 在真实场景里的 demo,挺有意思。

它现在有四个声音可选:说话带停顿语气,听着挺自然。

能干啥呢?
厨房帮手:你拿着食材问它咋做,或者让它看看厨房有啥调料推荐用法,它能实时分析给建议。对厨房小白挺友好。
音乐点评:放段音乐给它听,它能判断风格、调性,还能对原创歌曲的词、节奏给点意见。
绘画参谋:看到草图,它能理解画的啥,还能给构图提建议。
户外观察/学习辅助:还能判断天气、辅助解题、读论文。多模态能力确实通用。

性能跑分这块,Qwen2.5-Omni 表现咋样?

在需要同时处理多种信息的任务上 (比如 OmniBench)。Qwen2.5-Omni 直接登顶 SOTA,拿了 56.13%,把第二名 Gemini 1.5 Pro 的 42.91% 甩开不少。

单项能力也没落下,看官方列出来的:语音识别、翻译、音频理解、图像推理、视频理解、语音合成…… 都很擅长。
柱状图摆在那儿,对比看得很清楚,蓝色条(Qwen2.5-Omni)在大部分项目上都顶在前面:

那它是怎么做到这么“全能”的?
Qwen2.5-Omni 用了一套自研的“Thinker-Talker”双核架构。可以把它想象成大脑和嘴巴协同工作。
“Thinker” 模块,就像是大脑。
它负责接收和处理各种输入,比如文字、声音、图像、视频。它的任务是理解这些信息的深层含义,并生成相应的文本内容。技术上,它基于 Transformer 解码器,并融合了专门的音频和图像编码器来提取特征。它会共享整个对话的上下文信息,形成一个统一的模型结构。
“Talker” 模块,则像是嘴巴。
它从 “Thinker” 那里实时接收理解好的语义信息和文本,然后流畅地合成语音输出。它用的是一种双轨 Transformer 解码器设计,能直接利用 “Thinker” 输出的高维信息,让语音合成更自然。
网友们催更移动版上线。
估计很多人都想使用实时视频,毕竟电脑使用不太方便。
也有考虑和硬件结合,app开发的。
官方也说了,后面还有更强的版本在路上,输出图片、视频、音乐啥的,可以期待下。
🌟 知音难求,自我修炼亦艰,抓住前沿技术的机遇,与我们一起成为创新的超级个体(把握AIGC时代的个人力量)。

点这里👇关注我,记得标星哦~

(文:AI进修生)

欢迎分享

发表评论