新发展！生成式AI音频植入芯片

想象一下，用户在智能手机上编辑视频时需要完美的音效，或者希望为自己的铃声、闹钟或社交媒体帖子生成自定义声音。用户无需在线搜索或购买音频片段，只需输入描述——“日落时轻柔的海浪声”——几秒钟内，设备便能生成完美的声音，甚至无需连接互联网。这种无缝、即时的音频生成完全在设备上完成，这已经成为现实，这要归功于Arm与Stability AI的一项新合作。

Arm与Stability AI合作加速文本到音频的响应时间

为了实现这一目标，开发图像、视频、3D和音频AI模型的Stability AI利用了Arm KleidiAI，后者提供了针对Arm CPU优化的性能关键例程——称为微内核。通过将KleidiAI集成到XNNPack库和ExecuTorch框架中，并结合Stability AI自身的优化，团队在Stability AI的文本到音频开源模型“Stable Audio Open”上实现了显著的AI性能提升。

结果非常显著。文本到音频AI生成的时间从几分钟大幅缩短至几秒钟，响应速度提升了30倍。这一切都是在Arm CPU的智能手机设备上完全运行Stable Audio Open模型实现的——这是文本到音频AI的首次突破——且无需互联网连接。

Stability AI利用KleidiAI的自动加速功能加快了模型响应速度，从而提升了设备上的AI性能，同时不牺牲质量。这些KleidiAI的性能提升无需Stable Audio Open模型的用户进行额外的开发工作，节省了时间和成本。Arm和Stability AI将继续合作，实施更多性能改进，进一步提升这一卓越的AI用户体验。

这些显著的改进表明，通过有针对性的硬件和软件集成，以前无法实现的AI应用在移动设备上变得可行，为未来的创新机会提供了动力。这也意味着，先进的AI音频功能现在可以被全球数十亿智能手机用户使用，而全球99%的智能手机都基于Arm技术。

共同解决复杂的AI挑战
尽管Stable Audio Open模型效率很高，但直接在智能手机CPU上运行它仍面临重大挑战。最初的尝试导致单个音频样本的生成时间超过四分钟，这使得用户体验变得不切实际。

通过与Arm合作，Stability AI将模型精简到适合移动设备的可训练参数数量。随后，Stability AI利用XNNPack和ExecuTorch集成中的KleidiAI性能加速功能，使该模型能够在Arm CPU上在几秒钟内生成音频片段。

Stability AI首席执行官Prem Akkaraju表示：

“随着越来越多的专业创作者和企业采用生成式AI来推动他们的生产流程，我们的模型和工作流程必须随处可用，以便开发者开发和创作者创作。我们很高兴与Arm合作，正是因为这一点。Arm在从服务器到智能手机的生态系统中的普及性，以及通过将Arm Kleidi集成到软件栈中来加速所有流行框架中的AI模型的工作，使其成为我们的不二之选。”

文本到音频AI的崛起
自2022年以来，Stability AI一直处于生成式AI革命的前沿，最初凭借行业领先的图像模型Stable Diffusion引起了广泛关注。在此基础上，该公司随后推出了Stable Audio，这是首批完全授权的音频模型之一，旨在从文本提示生成高质量的音乐和音效。这些模型在Hugging Face等领先平台上名列前茅，吸引了数百万用户使用这些工具。

Arm与Stability AI在MWC上的展示
在2025年世界移动通信大会（MWC）上，Arm和Stability AI将在2号馆I60展位的Arm展台上展示KleidiAI加速在Stable Audio Open模型上的成果。演示使用Stability AI的模型和工作流程生成，并全部在基于Arm的硬件上离线执行，其中包括搭载最新Armv9 CPU的联发科天玑9400的vivo X200系列旗舰智能手机。

先进的音频AI体验触手可及
这只是Arm与Stability AI合作的开始，未来还将有更多性能优化计划，以进一步提升用户体验。通过合作，我们正在为设备上的AI在音频、图像、视频和3D领域的应用奠定基础，重塑每个人创建内容以及与数字媒体互动的方式。通过精简高级模型并利用优化软件在无处不在的硬件上运行，我们正在为一个未来铺平道路，在这个未来中，复杂的AI应用、模型和体验将触手可及，直接来自我们口袋中的设备。

虽然许多AI驱动的应用程序（如Suno和Udio）可以生成音频，但大多数依赖于云处理，这意味着它们无法离线使用。此外，一些音频生成模型是在受版权保护的内容上训练的，这带来了知识产权风险。Stability声称，Stable Audio Open的训练集完全由免版税的音频和歌曲组成。

需要明确的是，优化后的Stable Audio Open模型目前还不能下载——至少现在还不能。但Stability首席执行官Prem Akkaraju在一份声明中暗示，Stability未来将努力将其模型（包括Stable Audio Open）引入消费者应用程序和设备中。

Stability是广受欢迎的图像生成模型Stable Diffusion背后的公司，尽管近年来面临困境，但去年该公司获得了包括埃里克·施密特（Eric Schmidt）和Napster创始人肖恩·帕克（Sean Parker）在内的投资者的新资金注入，试图扭转局面。据报道，Stability的联合创始人兼前首席执行官Emad Mostaque将公司管理不善，导致财务崩溃，员工辞职，与Canva的合作破裂，投资者对公司的前景感到担忧。

在过去的几个月里，Stability聘请了一位新CEO，任命《泰坦尼克号》导演詹姆斯·卡梅隆（James Cameron）为其董事会成员，并发布了多个新的图像生成模型。作为少数特别重视声音制作的大导演，期待卡梅隆。

（文：AI音频时代）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复