
AI 初创公司 Stability AI 发布了名为 Stable Audio Open Small 的“立体声”音频生成 AI 模型,该公司宣称这是市场上速度最快的模型,且效率高到足以在智能手机上运行。
Stable Audio Open Small 是 Stability AI 与芯片制造商 Arm 合作的成果,后者生产了众多平板、手机及其他移动设备中的处理器。尽管已有许多 AI 应用如 Suno 和 Udio 能生成音频,但多数依赖云端处理,意味着无法离线使用。
Stability 还宣称,Stable Audio Open Small 的训练集完全由免版税音频库 Free Music Archive 和 Freesound 中的歌曲构成。这与前述 Suno 和 Udio 的训练集形成对比——据报道后者包含受版权保护内容,存在知识产权风险。
Stable Audio Open Small 拥有 3.41 亿参数规模,并针对 Arm CPU 进行了优化。(参数有时被称为“权重“,是模型内部决定其行为的关键组件。)该模型专为快速生成短音频样本和音效(如鼓点与乐器即兴片段)设计。
Stability AI 宣称其能在智能手机上以不到 8 秒的时间生成最长 11 秒的音频。
该模型并非没有局限性。Stable Audio Open Small 仅支持英文提示输入,Stability 在其文档中指出,该模型无法生成逼真的人声或高质量歌曲。公司还警告称,由于训练数据偏向西方风格,模型在不同音乐类型上的表现并不均衡。
对于开发者而言,另一个潜在的难题是Stable Audio Open Small 的使用条款较为严格。该模型对年收入低于 100 万美元的研究人员、爱好者和企业免费开放,但年收入超过 100 万美元的开发者及组织需购买 Stability 的企业许可证。
Stability 是热门图像生成模型 Stable Diffusion 背后的困境公司,去年在包括埃里克·施密特和 Napster 创始人肖恩·帕克在内的投资者试图扭转业务颓势时筹集了新资金。据报道,Stability 的联合创始人兼前 CEO 埃马德·莫斯塔克管理不善,导致公司陷入财务困境,员工辞职,与 Canva 的合作破裂,投资者对公司前景日益担忧。
过去几个月里,Stability 聘请了新 CEO,任命电影制作人詹姆斯·卡梅隆加入董事会,并发布了多款新的图像生成模型。
参考资料
https://techcrunch.com/2025/05/14/stability-ai-releases-an-audio-generating-model-that-can-run-on-smartphones/
编译:ChatGPT
(文:Z Potentials)