跳至内容

文| 林文琪
中国AI行业或将跑出音乐界的ChatGPT。3月26日,昆仑万维正式发布全球首款音乐推理大模型Mureka O1模型与基座模型Mureka V6。南都记者体验发现,输入提示词后,Mureka能快速一键生成完整、带有歌词和特定风格的多语种歌曲,中国AI创新走向世界。
谈及Mureka模型的商业化布局,昆仑万维董事长兼CEO方汉表示,数字音乐市场目前全球规模达到了约40亿美元,希望昆仑万维能凭借技术优势和出海经验将该市场规模扩大到百亿美元。同时,目前有来自全球100多个国家和地区的用户已经在使用Mureka生成音乐,虽然传统音乐创作者对AI音乐的偏见还需要时间消除,但技术上制造AI音乐的条件已经成熟。“预计3-5年AI生成的音乐能进入消费排行榜,5-10年整个产业会重组重构,甚至可能出现新渠道。”
早在去年4月,昆仑万维就发布了第一代音乐生成模型:Mureka V1(SkyMusic)。据了解,在过去接近一年的时间里,昆仑万维持续对Mureka进行升级迭代,产品覆盖100个国家和地区。
Mureka是英文中Music与Eureka的结合,Eureka在希腊语中意为“我发现了”、“我找到了”,常用于表达突然获得灵感的时刻。Mureka V6是当前Mureka O1的基座模型,支持纯音乐生成,还支持包括英语、中文、日语、韩语、法语、西班牙语、葡萄牙语、德语、意大利语和俄语10种语言的AI音乐创作,同时团队引入自研上下文学习技术,使得声场更加开阔,人声质感和混音设计进一步强化。
另外,此次发布的Mureka O1是基于Mureka V6的推理优化版本模型,也是全球范围内首个引入思维链的音乐模型,目前,该模型能在推理过程中加入思考,实现大幅提升音乐品质、音乐创作效率和灵活性。据悉,目前Mureka V6和O1模式支持多元化的音乐创作风格及情感表达,曲风涵盖爵士、电子、流行、乡村、节奏布鲁斯、灵魂乐等。
南都记者输入提示词“表达很想放假的中文歌曲”,并提示为“摇滚风格”。Mureka快速输出一首带有电吉他和鼓点的歌曲,并署名为《假期愿望》,整体歌曲完整丰富、歌词也轻松活泼。
此外,Mureka系列模型此次还提供两个特色音乐生成功能,一是用户可以直接上传音频或视频链接作为创作提示,可生成类似的音乐;二是生成指定音色,用户不仅可以选择官方提供的多种歌手音色,还可以上传自己的声音,让AI学习并复刻,精准模拟歌手音色,一键生成个性化专属作品。
此次发布后,昆仑万维也以论文形式公开了Mureka O1的实现原理。同时,面向企业和开发者,Mureka同时面向B端用户开放了API服务。在音乐类API方面,该模型支持包括文本提示、音色参考、音频参考在内的输入素材,支持生成音乐和台词,适用于游戏配乐、短视频配乐等场景。该模型还支持语音API,即提供AI语音播客、精品说话人、音色克隆等API,用于语音播客、预制精品音色语音合成、音色克隆等场景。
据悉,该产品主要面向B端影视、游戏、音频等领域的从业者,通过SaaS或PasS服务来帮助他们降低成本、提高效率。此外,C端喜欢音乐的普通人也可付费获取服务,在收费方面,基本版每月10美元,可实现生成400首歌曲、下载歌曲mp3等;专业版每月30美元,可实现生成或编辑1600首歌,除下载歌曲mp3以外还能下载歌曲相关视频,同时还能使用生成类似音乐和生成指定音色的功能。
谈及Mureka的商业化布局,昆仑万维董事长兼CEO 方汉向南都记者表示,数字音乐市场目前全球规模达到了约40亿美金,希望昆仑万维能凭借技术优势和出海经验将该市场规模扩大到百亿美金。
方汉还提到,目前在海外有很多个人作者已经在使用昆仑万维的产品生成音乐,虽然传统音乐创作者对AI音乐的偏见还需要时间消除,但技术上制造AI音乐的条件已经成熟。“技术上AI音乐已接近实用化了,我预计3-5年AI生成的音乐能进入消费排行榜,5-10年整个产业会重组重构,甚至可能出现新渠道。”
另外在版权方面,方汉透露,目前一些音乐创作者对AI音乐存在误解,但头部创作者其实对AIGC技术很敏锐。昆仑万维作为制作工具对版权持开放态度,但不会介入渠道分发,付费使用的版权归用户。
昆仑万维之外,南都记者关注到,去年能以提示词生成音乐的美国AI音乐创作服务提供商Suno面世后,国内大模型玩家也迅速跟进、在AI音乐领域快速布局。去年7月,趣丸科技发布了全球首个多模态配乐大模型,支持文生音乐、音频生音乐,还首创了图片、视频生成音乐功能。一个月后,字节跳动也推出了其免费AI音乐创作和分享平台海绵音乐,用户只需要输入一句灵感或上传一张图片,即可生成专属的音乐作品。
谈及AI音乐赛道未来的布局,方汉透露,目前该赛道中数据是关键,国内拥有全量音乐数据的厂商不多,昆仑万维在数据积累方面处于领先地位,从2021年就开始研发,经验丰富。未来昆仑万维有两大技术迭代方向,一是提供音频领域整体解决方案,配合视频大模型发展;二是实现语言交互式的音乐调整。
(文:AI前哨站)