🍹 Insight Daily 🪺
Aitrainee | 公众号:AI进修生
Hi,这里是Aitrainee,欢迎阅读本期新文章。
阿里 Qwen 家族添新丁:Qwen2.5-Omni,一个真正的“Omni”全能模型。
这款新模型号称能看、能听、能说、能写,还能实时响应。文本、图片、音频、视频,一个模型全搞定。
自家 Qwen Chat 也用上了,还能语音、视频直接聊,跟真人似的。
体验地址:https://chat.qwen.ai/
社区也热赞,虽然也有人说离 GPT 还差点,但这波开源全能操作确实很顶。
更重要的是,团队把 Qwen2.5-Omni-7B 开源了,用的 Apache 2.0 协议。
技术报告也一起发了,里面细节都有。
现在开发者和企业可以免费下载商用,手机这种端侧智能硬件也能轻松部
署运行。
想深入了解的,各种传送门都准备好了:
-
论文地址:https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf
-
博客地址:https://qwenlm.github.io/blog/qwen2.5-omni/
-
GitHub 地址:https://github.com/QwenLM/Qwen2.5-Omni
-
Hugging Face 地址:https://huggingface.co/Qwen/Qwen2.5-Omni-7B
-
ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
官方放了不少 Qwen2.5-Omni 在真实场景里的 demo,挺有意思。
它现在有四个声音可选:说话带停顿语气,听着挺自然。
厨房帮手:你拿着食材问它咋做,或者让它看看厨房有啥调料推荐用法,它能实时分析给建议。对厨房小白挺友好。
音乐点评:放段音乐给它听,它能判断风格、调性,还能对原创歌曲的词、节奏给点意见。
绘画参谋:看到草图,它能理解画的啥,还能给构图提建议。
户外观察/学习辅助:还能判断天气、辅助解题、读论文。多模态能力确实通用。
性能跑分这块,Qwen2.5-Omni 表现咋样?
在需要同时处理多种信息的任务上 (比如 OmniBench)。Qwen2.5-Omni 直接登顶 SOTA,拿了 56.13%,把第二名 Gemini 1.5 Pro 的 42.91% 甩开不少。
单项能力也没落下,看官方列出来的:语音识别、翻译、音频理解、图像推理、视频理解、语音合成…… 都很擅长。
柱状图摆在那儿,对比看得很清楚,蓝色条(Qwen2.5-Omni)在大部分项目上都顶在前面:
Qwen2.5-Omni 用了一套自研的“Thinker-Talker”双核架构。可以把它想象成大脑和嘴巴协同工作。
它负责接收和处理各种输入,比如文字、声音、图像、视频。它的任务是理解这些信息的深层含义,并生成相应的文本内容。技术上,它基于 Transformer 解码器,并融合了专门的音频和图像编码器来提取特征。它会共享整个对话的上下文信息,形成一个统一的模型结构。
它从 “Thinker” 那里实时接收理解好的语义信息和文本,然后流畅地合成语音输出。它用的是一种双轨 Transformer 解码器设计,能直接利用 “Thinker” 输出的高维信息,让语音合成更自然。
估计很多人都想使用实时视频,毕竟电脑使用不太方便。
官方也说了,后面还有更强的版本在路上,输出图片、视频、音乐啥的,可以期待下。
🌟 知音难求,自我修炼亦艰,抓住前沿技术的机遇,与我们一起成为创新的超级个体(把握AIGC时代的个人力量)。
点这里👇关注我,记得标星哦~
(文:AI进修生)