阿里巴巴推出可在手机上处理视频音频的AI模型

阿里巴巴集团近期发布了其通义千问(Qwen)系列的最新多模态AI模型Qwen2.5-Omni-7B,这一突破性进展标志着中国AI技术在多模态领域的又一次重要突破。这款模型不仅能够处理文本、图像、音频和视频等多种数据形式,更重要的是其优化后的架构使其能够在手机和笔记本电脑等终端设备上高效运行,这为AI技术的普及应用开辟了新的可能性。



作为阿里巴巴AI战略的重要一环,Qwen2.5-Omni-7B已经在Hugging Face和GitHub等开源平台公开发布。这一开放策略不仅体现了阿里巴巴推动AI技术民主化的决心,也为全球开发者社区提供了强大的工具支持。该模型特别注重在语音理解和生成方面的性能优化,使其在实时交互场景中展现出显著优势。例如,在辅助视障人士的应用场景中,该模型可以通过实时音频描述帮助用户更好地感知周围环境,这种人性化的功能设计展现了AI技术的社会价值。


主要特点:

全能创新架构:我们提出了一种全新的Thinker-Talker架构,这是一种端到端的多模态模型,旨在支持文本/图像/音频/视频的跨模态理解,同时以流式方式生成文本和自然语音响应。我们提出了一种新的位置编码技术,称为TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。


  • 实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出。

  • 自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

  • 全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni在音频能力上优于类似大小的Qwen2-Audio,并与Qwen2.5-VL-7B保持同等水平。

  • 卓越的端到端语音指令跟随能力:Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。


模型结构:




性能指标:



Qwen2.5-Omni在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。在多模态任务OmniBench,Qwen2.5-Omni达到了SOTA的表现。此外,在单模态任务中,Qwen2.5-Omni在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感)。



阿里巴巴在AI领域的布局可谓迅猛。就在今年1月DeepSeek引发行业关注后不久,这家中国科技巨头就快速推出了Qwen系列的不同版本。本月早些时候,该公司还发布了其AI助手Quark应用程序的重大更新。这些动作充分展现了阿里巴巴在AI赛道上的战略决心和执行效率。值得注意的是,阿里巴巴并非孤军奋战,全球科技巨头如OpenAI和谷歌母公司Alphabet也在积极开发多模态AI系统。就在本周二,OpenAI刚刚为ChatGPT升级了更先进的图像生成功能,这场全球AI竞赛正日趋白热化。

在技术层面,Qwen2.5-Omni-7B的突破不仅体现在多模态处理能力上,更在于其出色的终端适配性。通过模型压缩和优化技术,阿里巴巴成功地将这个强大的AI系统部署到了移动设备上,这在很大程度上降低了AI应用的门槛。从智能家居到车载系统,从移动应用到边缘计算,这种轻量化的AI模型正在打开更多创新应用的可能性。



阿里巴巴的AI雄心远不止于此。这家由马云联合创办的互联网巨头已经明确表示,计划在未来的人工智能和云计算基础设施上投入比过去十年更多的资金。随着AI模型的不断演进,对计算能力的需求呈现指数级增长,阿里巴巴正致力于成为全球AI开发和实际应用的重要合作伙伴。特别是在中国科技企业集体发力AI的背景下,以阿里巴巴为代表的企业正在通过高性价比的技术方案挑战西方科技巨头的市场地位。



当前全球AI格局正在经历深刻变革。自从DeepSeek以极具成本效益的模型方案崭露头角以来,中国科技企业纷纷推出更具价格竞争力的AI服务。这种”中国速度”正在给OpenAI和谷歌等西方巨头的商业模式带来前所未有的压力。虽然目前还难以断言这些新兴力量能否全面超越西方同行,但它们无疑正在重塑全球AI产业的竞争格局。


在应用场景方面,阿里巴巴的AI技术已经渗透到多个垂直领域。在跨境电商领域,其AI采购助手Accio正在帮助全球买家更高效地寻找商品;在智能汽车领域,Qwen系列模型已经与宝马、小鹏等知名车企达成合作;在金融科技领域,AI风控系统正在提升交易安全性。这些实际应用案例充分证明了阿里巴巴AI技术的商业化潜力。



自2023年以来,阿里通义团队积极推进技术研发,陆续开发出涵盖0.5B、1.5B、3B、7B、14B、32B、72B、110B等多种参数配置的200多款“全尺寸”大模型。这些模型不仅包括文本生成模型,还涉及视觉理解与生成模型、语音理解与生成模型,以及文本到图像和视频的生成模型等,全面覆盖“全模态”应用场景。阿里通义团队的这一重要成果,真正让普通用户和企业能够便捷地获取并使用AI大模型,推动了AI技术的普及和应用。目前,在海内外AI开源社区中,千问Qwen的衍生模型数量已突破10万大关,进一步证明了其在行业中的影响力和技术创新能力。


展望未来,阿里巴巴面临的挑战与机遇并存。一方面,其开源策略和终端适配技术确实降低了AI应用门槛,推动了技术普惠;另一方面,在模型性能、生态系统建设等方面,与国际顶尖水平仍存在差距。特别是在全球AI治理和伦理标准日益受到重视的背景下,阿里巴巴需要更加注重技术的负责任发展。随着3800亿元新投资的逐步落地,这家中国科技巨头能否在全球AI竞赛中实现弯道超车,将成为未来几年最值得关注的科技话题之一。


(文:AI音频时代)

欢迎分享

发表评论