想象一下,用户在智能手机上编辑视频时需要完美的音效,或者希望为自己的铃声、闹钟或社交媒体帖子生成自定义声音。用户无需在线搜索或购买音频片段,只需输入描述——“日落时轻柔的海浪声”——几秒钟内,设备便能生成完美的声音,甚至无需连接互联网。这种无缝、即时的音频生成完全在设备上完成,这已经成为现实,这要归功于Arm与Stability AI的一项新合作。

Arm与Stability AI合作加速文本到音频的响应时间
为了实现这一目标,开发图像、视频、3D和音频AI模型的Stability AI利用了Arm KleidiAI,后者提供了针对Arm CPU优化的性能关键例程——称为微内核。通过将KleidiAI集成到XNNPack库和ExecuTorch框架中,并结合Stability AI自身的优化,团队在Stability AI的文本到音频开源模型“Stable Audio Open”上实现了显著的AI性能提升。

结果非常显著。文本到音频AI生成的时间从几分钟大幅缩短至几秒钟,响应速度提升了30倍。这一切都是在Arm CPU的智能手机设备上完全运行Stable Audio Open模型实现的——这是文本到音频AI的首次突破——且无需互联网连接。

Stability AI利用KleidiAI的自动加速功能加快了模型响应速度,从而提升了设备上的AI性能,同时不牺牲质量。 这些KleidiAI的性能提升无需Stable Audio Open模型的用户进行额外的开发工作,节省了时间和成本。Arm和Stability AI将继续合作,实施更多性能改进,进一步提升这一卓越的AI用户体验。

这些显著的改进表明,通过有针对性的硬件和软件集成,以前无法实现的AI应用在移动设备上变得可行,为未来的创新机会提供了动力。这也意味着,先进的AI音频功能现在可以被全球数十亿智能手机用户使用,而全球99%的智能手机都基于Arm技术。
共同解决复杂的AI挑战
尽管Stable Audio Open模型效率很高,但直接在智能手机CPU上运行它仍面临重大挑战。最初的尝试导致单个音频样本的生成时间超过四分钟,这使得用户体验变得不切实际。
通过与Arm合作,Stability AI将模型精简到适合移动设备的可训练参数数量。随后,Stability AI利用XNNPack和ExecuTorch集成中的KleidiAI性能加速功能,使该模型能够在Arm CPU上在几秒钟内生成音频片段。
Stability AI首席执行官Prem Akkaraju表示:
“随着越来越多的专业创作者和企业采用生成式AI来推动他们的生产流程,我们的模型和工作流程必须随处可用,以便开发者开发和创作者创作。我们很高兴与Arm合作,正是因为这一点。Arm在从服务器到智能手机的生态系统中的普及性,以及通过将Arm Kleidi集成到软件栈中来加速所有流行框架中的AI模型的工作,使其成为我们的不二之选。”
文本到音频AI的崛起
自2022年以来,Stability AI一直处于生成式AI革命的前沿,最初凭借行业领先的图像模型Stable Diffusion引起了广泛关注。在此基础上,该公司随后推出了Stable Audio,这是首批完全授权的音频模型之一,旨在从文本提示生成高质量的音乐和音效。这些模型在Hugging Face等领先平台上名列前茅,吸引了数百万用户使用这些工具。

Arm与Stability AI在MWC上的展示
在2025年世界移动通信大会(MWC)上,Arm和Stability AI将在2号馆I60展位的Arm展台上展示KleidiAI加速在Stable Audio Open模型上的成果。演示使用Stability AI的模型和工作流程生成,并全部在基于Arm的硬件上离线执行,其中包括搭载最新Armv9 CPU的联发科天玑9400的vivo X200系列旗舰智能手机。

先进的音频AI体验触手可及
这只是Arm与Stability AI合作的开始,未来还将有更多性能优化计划,以进一步提升用户体验。通过合作,我们正在为设备上的AI在音频、图像、视频和3D领域的应用奠定基础,重塑每个人创建内容以及与数字媒体互动的方式。通过精简高级模型并利用优化软件在无处不在的硬件上运行,我们正在为一个未来铺平道路,在这个未来中,复杂的AI应用、模型和体验将触手可及,直接来自我们口袋中的设备。
虽然许多AI驱动的应用程序(如Suno和Udio)可以生成音频,但大多数依赖于云处理,这意味着它们无法离线使用。此外,一些音频生成模型是在受版权保护的内容上训练的,这带来了知识产权风险。Stability声称,Stable Audio Open的训练集完全由免版税的音频和歌曲组成。

需要明确的是,优化后的Stable Audio Open模型目前还不能下载——至少现在还不能。但Stability首席执行官Prem Akkaraju在一份声明中暗示,Stability未来将努力将其模型(包括Stable Audio Open)引入消费者应用程序和设备中。
Stability是广受欢迎的图像生成模型Stable Diffusion背后的公司,尽管近年来面临困境,但去年该公司获得了包括埃里克·施密特(Eric Schmidt)和Napster创始人肖恩·帕克(Sean Parker)在内的投资者的新资金注入,试图扭转局面。据报道,Stability的联合创始人兼前首席执行官Emad Mostaque将公司管理不善,导致财务崩溃,员工辞职,与Canva的合作破裂,投资者对公司的前景感到担忧。

在过去的几个月里,Stability聘请了一位新CEO,任命《泰坦尼克号》导演詹姆斯·卡梅隆(James Cameron)为其董事会成员,并发布了多个新的图像生成模型。作为少数特别重视声音制作的大导演,期待卡梅隆。
(文:AI音频时代)