Stability AI和Arm发布了一种紧凑型文本到音频模型,该模型可以在智能手机上运行,能够在大约7秒内生成长达11秒的立体声音频片段。

这种模型被称为Stable Audio Open Small,其基于一种被称为“对抗性相对对比”(Adversarial Relativistic-Contrastive,简称ARC)的技术,该技术由加州大学伯克利分校和其他机构的研究人员开发。在高端硬件(如Nvidia H100 GPU)上,它可以仅用75毫秒生成44 kHz的立体声音频——快到足以实现近乎实时的生成。

Stable Audio Open的原始版本于去年推出,是一款拥有11亿参数的免费开源模型。这个较小的版本仅使用了3.41亿参数,使其能够在消费级硬件上更轻松地运行。Stability AI和Arm的合作关系于今年3月首次宣布。

为移动硬件设计

为了让该模型能够在智能手机上运行,开发团队对其架构进行了全面改造。该系统现在由三个组件构成:一个用于压缩音频数据的自编码器(autoencoder),一个用于解释文本提示的嵌入模块(embedding module),以及一个用于生成最终音频的扩散模型(diffusion model)。
这种重新设计的架构并没有依赖蒸馏技术,但仍然将内存使用量几乎减半——从6.5GB降低到3.6GB。这一内存用量的减少使得该模型首次能够在移动设备上运行。在测试过程中,研究人员使用了2024年底发布的Vivo X200 Pro,这是一款配备12GB内存和联发科天玑9400芯片的安卓手机。

最适合生成音效


Stability AI表示,该模型特别擅长生成音效和现场录音。它在音乐生成方面仍然存在挑战,尤其是对于演唱声音,而且最适合使用英语提示词。
该模型的训练数据来自Freesound数据库的约472,000个音频片段,仅使用了在CC0、CC-BY或CC-Sampling+许可条款下授权的素材。为了避免版权问题,团队通过一系列自动化检查对数据进行了筛选。
该软件在Stability AI社区许可协议下提供开源使用。商业应用需遵守单独的条款。代码托管在GitHub上,模型权重可以通过Hugging Face获取。
(文:AI音频时代)