Magenta RealTime 是由 Google 开发的一个开源音乐生成模型,基于用于创建 MusicFX DJ 和 Lyria RealTime 的相同研究和技术。Magenta RealTime 允许通过文本提示、音频示例或多个文本提示和/或音频示例的加权组合来持续生成音乐音频。其相对较小的体积使其能够在资源有限的环境中部署,包括现场表演环境或免费可用的 Colab TPUs。

系统组件
Magenta RealTime 由三个组件组成:SpectroStream、MusicCoCa 和一个 LLM。完整的技术报告即将发布,将详细介绍每个组件。
- SpectroStream 是一个离散音频编解码器,将立体声 48kHz 音频转换为标记,基于 Zeghidour+ 21 的 SoundStream RVQ 编解码器
- MusicCoCa 是一个对比训练的模型,能够将音频和文本嵌入到一个共同的嵌入空间中,基于 Yu+ 22 和 Huang+ 22。
- 一个编码器-解码器 Transformer LLM 根据上下文音频标记和标记化的 MusicCoCa 嵌入生成音频标记,基于 Agostinelli+ 23 的 MusicLM 方法
输入和输出
- SpectroStream RVQ 编码器: 高保真音乐音频的分词
- 编码器输入 / 解码器输出: 音乐音频波形,48kHz 立体声
- 编码器输出 / 解码器输入: 离散音频分词,25Hz 帧率,64 RVQ 深度,10 位码,16kbps
- MusicCoCa: 文本和音乐音频的联合嵌入
- 输入: 音乐音频波形,16kHz 单声道,或音乐风格的文本表示,例如“重金属”
- 输出: 768 维嵌入,量化为 12 个 RVQ 深度,10 位代码
- 编码解码 Transformer LLM: 根据上下文和风格生成音频标记
- 编码输入: (上下文, 1000 个标记) 10 秒的音频上下文标记,深度 4 个 RVQ,(风格, 6 个标记) 量化 MusicCoCa 风格嵌入
- 解码输出: (生成, 800 个标记) 2 秒的音频,深度 16 个 RVQ
使用
音乐生成模型,特别是针对连续实时生成和控制的模型,在各个行业和领域中有广泛的应用。以下列出的潜在用途并不全面。此列表的目的是提供关于模型创建者在模型训练和开发过程中考虑的可能应用场景的背景信息。
- 交互式音乐创作
- 演出/即兴创作:这些模型可以在现场表演环境中生成音乐,由表演者通过操控风格嵌入或音频上下文进行控制
- 无障碍音乐创作与音乐疗法:有使用传统乐器障碍的人(技能差距、残疾等)可以参与集体即兴演奏或独奏音乐创作。
- 视频游戏:开发者可以根据用户的行为和环境实时为其创建定制的背景音乐。
- 研究
- 迁移学习:研究人员可以利用 MusicCoCa 和 Magenta RT 中的表示来识别音乐信息。
- 个性化
- 音乐家可以使用自己的曲库微调模型以定制其风格(微调支持即将推出)。
- 教育
- 探索类型、乐器和历史:自然语言提示使用户能够快速了解和实验音乐概念。
(文:路过银河AI)