来自中央音乐学院、清华、北航等开发人员宣布一个新的模型-NotaGen,这应该是第一个针对古典乐交响乐的AI音乐生成模型。模型和代码全面开源,全球音乐爱好者、开发者与研究人员均可免费获取。此次发布涵盖基础版及受DeepSeekR1启发的增强版NotaGen-X。后者本地部署需24GB显存,性能大幅提升,适配追求极致体验的用户。不过,需注意的是,NotaGen不直接生成可播放音频,其输出为便于编辑转换的ABC和XML格式乐谱。

NotaGen的核心优势在于高度可控性与专业性。用户可指定乐曲时期风格,如巴洛克、古典或浪漫,也可选择键盘或管弦乐器等乐器类型,从而生成定制乐谱。为提升古典音乐生成质量,该模型在包含152位作曲家的8948首古典乐谱专业数据集上进行了微调。测试结果表明,生成乐谱接近专业创作水准,细节丰富且风格精准。
AI生成的古典乐
音乐生成研究的核心目标是创造具有艺术性和感染力的音乐作品。符号音乐,如乐谱和MIDI文件,是音乐生成中常用的表示形式,能够精确地描述音乐的旋律、和声、乐器等元素。然而,符号音乐生成面临着数据稀缺和模型优化的挑战。大型语言模型(LLMs)的成功为解决这些问题提供了新的思路。

乐谱生成的研究重点在于编码方法和作品建模。ABC符号作为一种全面的基于文本的乐谱表示,简化了编码并促进了作品建模,在最近的研究中越来越受到青睐。NLP中预训练的成功启发了这一技术在符号音乐生成中的应用。预训练在提升音乐生成性能方面的有效性已得到研究证实。强化学习被认为是一种提升音乐生成模型音乐性的有前景的方法。
NotaGen采用了一种修改版的ABC符号表示法——交错ABC符号。在该表示法中,同一小节的不同声部被重新排列成一行,并通过声部指示符“[V:]”进行区分。此外,还移除了包含全休止符的小节,以减少数据长度并提高信息密度。NotaGen利用了Tunesformer架构和小节流补丁。它由两个层次化的GPT-2解码器组成:补丁级解码器和字符级解码器。每个补丁通过连接一个热字符向量并经过线性层获得补丁嵌入。补丁级解码器捕捉补丁之间的时序关系,其最终隐藏状态传递给字符级解码器,后者进行自回归预测下一个补丁的字符。

NotaGen在160万首音乐作品上进行预训练,这些作品涵盖了广泛的风格和时期,使NotaGen能够通过下一个标记预测来捕捉基本的音乐结构和模式。在高质量的古典乐谱数据上进行微调,以进一步提高生成的音乐性。微调数据集包括8948首古典乐谱,涵盖152位作曲家,来自DCML语料库、OpenScore弦乐四重奏语料库、OpenScore歌曲语料库、ATEPP、KernScores和内部资源。每首作品都被标记为三个时期(巴洛克、古典和浪漫)、六种乐器(键盘、室内乐、管弦乐、艺术歌曲、合唱和声乐-管弦乐)中的一种,并在开头添加“时期-作曲家-乐器”提示以进行条件生成。
为了优化微调后的NotaGen的音乐性和提示可控性,引入了CLaMP-DPO方法。该方法基于人工智能反馈的强化学习(RLAIF)原理,实现了直接偏好优化(DPO)。在CLaMP-DPO中,CLaMP 2作为DPO框架中的评估器,根据参考区分选择和拒绝的音乐输出,从而优化NotaGen。

实验结果表明,CLaMP-DPO算法在提高生成音乐的可控性和音乐性方面是有效的。所有模型在应用CLaMP-DPO算法后,主观A/B测试中音乐性都有所提高,优化后的输出获得了比优化前更多的投票。平均CLaMP 2分数(ACS)在优化过程中单调增加,表明模型生成的音乐与真实参考之间的语义一致性提高。标签准确性(LA)也有所提高,表明模型对提示的可控性增强。然而,困惑度(PPL)在优化后有所增加,这表明PPL可能不是评估符号音乐生成模型性能的合适指标。
实验结果表明,NotaGen在主观评估中优于基线模型,与人类创作的乐曲相比,获得了最高的投票率。NotaGen的成功归因于其精心设计的数据表示和标记化,以及乐谱表示的效率和结构完整性。

尽管NotaGen在符号音乐生成方面取得了进展,但仍存在一些限制和挑战。例如,模型在管弦乐作品生成方面的表现仍有待提高,未来需要开发更有效的方法来生成大型合奏作品。
开源举措极大拓展了NotaGen的应用场景。于专业作曲家而言,它是高效的灵感工具;对业余爱好者来说,它降低了音乐创作的门槛。评论指出,NotaGen通过“时期 – 作曲家 – 乐器”提示生成乐谱的方式,操作简便,能满足多样化的创作需求。此外,其在流行音乐领域的表现备受期待,未来有望支持更多音乐风格。
管弦乐
键盘
室内乐
NotaGen是一种创新的符号音乐生成模型,旨在生成高质量的古典乐谱。它借鉴了大型语言模型(LLMs)的成功经验,采用了预训练、微调和强化学习的范式。这一模型在160万首音乐作品上进行了预训练,随后在约9000首高质量古典乐曲上进行了微调,这些乐曲带有“时期-作曲家-乐器”提示,以指导条件生成。在强化学习阶段,NotaGen引入了CLaMP-DPO方法,无需人工标注或预定义奖励,进一步提升了生成质量和可控性。
FilmSound.cn:从这些生成的示例来看,AI生成的古典乐是达到了目标,但与我们耳熟能详的那些经典还有不小的差距,不过还是那句话:这只是初代而已,但未来已来。
(文:AI音频时代)