阿里开源Qwen2.5-Omni-7B:首个端到端全模态大模型、看听说写打通

通义千问发布Qwen2.5-Omni-7B全模态大模型,支持文本、图像、音频和视频等多种输入形式,提出Thinker-Talker架构及TMRoPE位置编码技术。在多模态任务中表现出色,支持实时交互与语音指令跟随。