在人工智能音乐创作领域,如何在有限资源下生成高质量音乐一直是一个重要挑战。近日,开源模型 MG² 通过创新性的旋律引导机制,取得了突破性的进展。该模型以其独特的技术方案和卓越的性能表现,为 AI 音乐创作开辟了一条全新的发展路径。
模型创新:小巧高效,潜力巨大
MG² 模型采用了一种新颖的基于旋律引导的文本到音乐生成方法。MG² 用非常简单的方式和极其有限的资源,取得了出色的效果。
其次,设计了基于检索增强的扩散模块(retrieval-augmented diffusion module),同时利用文本提示和检索到的旋律显式地引导扩散模型生成音乐表征,确保生成的音乐既能准确表达文本描述的内容,又能在旋律引导下保证音乐所需的美感和韵律。
为了全面评估 MG² 的性能,技术团队结合了客观实验指标与大量人类主观评估。从客观实验指标来看,MG² 模型在多个方面达到了 SOTA 水平:
1. 在模型效率方面,MG² 仅使用 416M 参数量和 132 小时的音乐训练数据,就达到了超越现有 SOTA 的性能。相比之下,其他模型要么参数量更大(如 Mustango 的 1.4B),要么需要更长的训练时间(如 AudioLDM2-Full 的 29510 小时)。
-
在 MusicBench 数据集上,FAD 和 KL 指标分别达到 0.99 和 1.07,均为所有模型中最优 -
在 MusicCaps 数据集上,FAD 为 1.91,KL 为 1.21,同样优于现有 SOTA 模型 -
IS 指标在两个数据集上也达到了具有竞争力的水平(2.11 和 2.62)
专业品质:来自专业音乐人的评估显示,55.56% 的专业人士认为生成音乐具有较高的技术和艺术水平。
为了让更多的创作者和开发者能够体验 MG² 的魅力,项目团队提供了以下平台和资源:
MG²:Melody Is All You Need For Music Generation
项目主页:
https://awesome-mmgen.github.io/
学术论文:
Github:
在线Demo:
https://mg2.vip.cpolar.cn/ (欢迎大家一键使用在线音乐生成服务)
详细视频介绍:
项目进展与影响
技术影响
b)GitHub 仓库自发布以来获得 117 个 Star
Reddit 社区:MG² 在 Reddit 的讨论
YouTube:知名创作者(2.3万订阅)制作专题介绍视频,获得观众积极评价:
https://www.youtube.com/watch?v=PEj8GHajyA0
展望未来:开辟音乐创作的新天地
MG² 的出现,标志着人工智能在音乐创作领域的一次重要进展,为未来音乐产业的创新提供了新的可能性。项目团队相信,随着技术的不断进步,人工智能生成音乐将在个性化音乐创作、音乐推荐和智能作曲等方面发挥重要作用。
项目团队欢迎技术交流与合作,联系方式:
(文:PaperWeekly)