阿里开源Qwen2.5-Omni-7B:首个端到端全模态大模型、看听说写打通

通义千问发布Qwen2.5-Omni-7B全模态大模型,支持文本、图像、音频和视频等多种输入形式,提出Thinker-Talker架构及TMRoPE位置编码技术。在多模态任务中表现出色,支持实时交互与语音指令跟随。

阿里Qwen版高级语音模式和实时视频聊天模式来了:每天10次试用

阿里发布Qwen2.5-Omni-7B模型,支持实时语音和视频聊天,并开源其技术报告。该模型采用’思考者-说话者’架构实现跨模态处理能力,性能达到同类最佳水平,在多个垂直领域表现出色。