在人工智能音乐创作领域，如何在有限资源下生成高质量音乐一直是一个重要挑战。近日，开源模型 MG² 通过创新性的旋律引导机制，取得了突破性的进展。该模型以其独特的技术方案和卓越的性能表现，为 AI 音乐创作开辟了一条全新的发展路径。

以下是一个小测试，请你选择你认为是 AI 生成音乐的片段：

答案可以在论文 https://arxiv.org/pdf/2409.20196 章节 6.1 中找到。

模型创新：小巧高效，潜力巨大

MG² 模型采用了一种新颖的基于旋律引导的文本到音乐生成方法。MG² 用非常简单的方式和极其有限的资源，取得了出色的效果。

具体来说，MG² 采用了两阶段的技术方法：首先通过对比语言-音乐预训练（Contrastive Language-Music Pretraining，CLMP）方法，创新性地将文本与音频波形及其相关的旋律进行对齐，使得学习到的文本表示能够融合隐式的旋律信息。

其次，设计了基于检索增强的扩散模块（retrieval-augmented diffusion module），同时利用文本提示和检索到的旋律显式地引导扩散模型生成音乐表征，确保生成的音乐既能准确表达文本描述的内容，又能在旋律引导下保证音乐所需的美感和韵律。

值得注意的是，MG² 仅使用了不到开源 SOTA 模型 1/3 的参数量或 1/200 的训练数据，就实现了媲美甚至超越现有开源模型的性能。

▲ 模型框架图

多维度评估：客观与主观结合

为了全面评估 MG² 的性能，技术团队结合了客观实验指标与大量人类主观评估。从客观实验指标来看，MG² 模型在多个方面达到了 SOTA 水平：

1. 在模型效率方面，MG² 仅使用 416M 参数量和 132 小时的音乐训练数据，就达到了超越现有 SOTA 的性能。相比之下，其他模型要么参数量更大（如 Mustango 的 1.4B），要么需要更长的训练时间（如 AudioLDM2-Full 的 29510 小时）。

2. 在评估指标上，MG² 在多个关键指标上都达到了 SOTA 水平：

在 MusicBench 数据集上，FAD 和 KL 指标分别达到 0.99 和 1.07，均为所有模型中最优
在 MusicCaps 数据集上，FAD 为 1.91，KL 为 1.21，同样优于现有 SOTA 模型
IS 指标在两个数据集上也达到了具有竞争力的水平（2.11 和 2.62）

这些结果表明，MG² 不仅在生成质量上达到了 SOTA 水平，而且在计算效率和资源利用方面也具有明显优势。模型能够在较小的参数量和较短的训练时间下，实现与甚至超越现有模型的性能

▲ 音乐生成实验结果

在人类主观评估方面，项目团队邀请了多元化的评估群体，包括 125 名普通用户、18 名专业音乐人和 20 名短视频博主（来自抖音、B 站和小红书，粉丝量最多达到 77000），从多个维度对 MG² 生成的音乐进行了全面评估：

描述相关性：平均得分达到 3.88（满分 5 分），其中 76.55% 的评估者认为生成的音乐与文本描述高度相关。

用户满意度：普通用户的平均满意度达到 3.54 分，超过 60% 的用户对生成音乐表示满意。

专业品质：来自专业音乐人的评估显示，55.56% 的专业人士认为生成音乐具有较高的技术和艺术水平。

市场潜力：在短视频创作者群体中，75.72% 的博主认为 MG² 生成的音乐适合用于内容创作，46.43% 表示愿意付费使用，充分证明了模型的实际应用价值。

这些多维度的评估结果不仅验证了 MG² 在音乐生成质量上的优异表现，也展示了其在实际应用场景中的巨大潜力。

开放平台：共享资源，共享成果

为了让更多的创作者和开发者能够体验 MG² 的魅力，项目团队提供了以下平台和资源：

论文标题：

MG²：Melody Is All You Need For Music Generation

项目主页：

https://awesome-mmgen.github.io/

学术论文：

https://arxiv.org/abs/2409.20196

Github：

https://github.com/shaopengw/Awesome-Music-Generation

在线Demo：

https://mg2.vip.cpolar.cn/ （欢迎大家一键使用在线音乐生成服务）

详细视频介绍：

MG²：一键生成个性化音乐_哔哩哔哩_bilibili（https://www.bilibili.com/video/BV1K84FeBEqo/?spm_id_from=333.999.0.0&vd_source=5ac6038506ac5b47f2640964dc0ccb20）

项目进展与影响

MG² 于 2024 年国庆期间上线，发布以来获得了显著的关注和认可：

技术影响

a）截止 2024 年 11 月 27 日项目主页访问量突破 3700 次，访问者遍布全球

b）GitHub 仓库自发布以来获得 117 个 Star

c）已受邀接入 Huggingface Transformers 库，标志着项目的技术水平获得主流开发社区认可

国际社区反响

Reddit 社区：MG² 在 Reddit 的讨论

https://www.reddit.com/r/StableDiffusion/comments/1gj18p2/mg%C2%B2_melody_is_all_you_need_for_music_generation/

YouTube：知名创作者（2.3万订阅）制作专题介绍视频，获得观众积极评价：

https://www.youtube.com/watch?v=PEj8GHajyA0

展望未来：开辟音乐创作的新天地

MG² 的出现，标志着人工智能在音乐创作领域的一次重要进展，为未来音乐产业的创新提供了新的可能性。项目团队相信，随着技术的不断进步，人工智能生成音乐将在个性化音乐创作、音乐推荐和智能作曲等方面发挥重要作用。

项目团队欢迎技术交流与合作，联系方式：

邮箱：shaopeng.wei@gxu.edu.cn

微信：gxu_wsp

（文：PaperWeekly）

旋律即所需！开源项目MG²重新定义音乐生成新范式

项目进展与影响

发表评论取消回复

2025 年 6 月
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

项目进展与影响

发表评论 取消回复

发表评论取消回复