速递｜Stability AI联手Arm推出最快手机端免云模型，8秒生成11秒音频

图片来源：Stability AI

AI 初创公司 Stability AI 发布了名为 Stable Audio Open Small 的“立体声”音频生成 AI 模型，该公司宣称这是市场上速度最快的模型，且效率高到足以在智能手机上运行。

Stable Audio Open Small 是 Stability AI 与芯片制造商 Arm 合作的成果，后者生产了众多平板、手机及其他移动设备中的处理器。尽管已有许多 AI 应用如 Suno 和 Udio 能生成音频，但多数依赖云端处理，意味着无法离线使用。

Stability 还宣称，Stable Audio Open Small 的训练集完全由免版税音频库 Free Music Archive 和 Freesound 中的歌曲构成。这与前述 Suno 和 Udio 的训练集形成对比——据报道后者包含受版权保护内容，存在知识产权风险。

Stable Audio Open Small 拥有 3.41 亿参数规模，并针对 Arm CPU 进行了优化。（参数有时被称为“权重“，是模型内部决定其行为的关键组件。）该模型专为快速生成短音频样本和音效（如鼓点与乐器即兴片段）设计。

Stability AI 宣称其能在智能手机上以不到 8 秒的时间生成最长 11 秒的音频。

该模型并非没有局限性。Stable Audio Open Small 仅支持英文提示输入，Stability 在其文档中指出，该模型无法生成逼真的人声或高质量歌曲。公司还警告称，由于训练数据偏向西方风格，模型在不同音乐类型上的表现并不均衡。

对于开发者而言，另一个潜在的难题是Stable Audio Open Small 的使用条款较为严格。该模型对年收入低于 100 万美元的研究人员、爱好者和企业免费开放，但年收入超过 100 万美元的开发者及组织需购买 Stability 的企业许可证。

Stability 是热门图像生成模型 Stable Diffusion 背后的困境公司，去年在包括埃里克·施密特和 Napster 创始人肖恩·帕克在内的投资者试图扭转业务颓势时筹集了新资金。据报道，Stability 的联合创始人兼前 CEO 埃马德·莫斯塔克管理不善，导致公司陷入财务困境，员工辞职，与 Canva 的合作破裂，投资者对公司前景日益担忧。

过去几个月里，Stability 聘请了新 CEO，任命电影制作人詹姆斯·卡梅隆加入董事会，并发布了多款新的图像生成模型。

参考资料

https://techcrunch.com/2025/05/14/stability-ai-releases-an-audio-generating-model-that-can-run-on-smartphones/

编译：ChatGPT

——-

（文：Z Potentials）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复