
作者 | Kino
编辑 | 张洁

继“AI孙燕姿”引发全民热议后,沉寂已久的AI歌手赛道,最近又焕发了新的生机。
蓝色挑染,亚洲面孔,骷髅头话筒,视频里这位名为Yuri的AI歌手,上个月发布的首支AI音乐MV《Surreal》在全网获得了超700万播放,多次登上B站热榜,还拿下了北面(The North Face)的商业合作。
Yuri首支AI音乐MV
Yuri的出现并非孤例。最近,海外有一支名为“The Velvet Sundown”的AI乐队也悄然走红,一个月连发5首单曲,在Spotify等多个流媒体平台上积累了超110万的听众。其音乐风格是复古怀旧的爵士乐,听起来几乎让人难以分辨是AI生成还是真实乐队演奏。

乐队Spotify账号主页

The Velvet Sundown在Instagram上发的乐队合照
美国著名制作人Timbaland最近也高调推出首位AI偶像TaTa,并试图定义一个全新的音乐流派“A-Pop”(AI-Pop)。

TaTa
从AI翻唱到AI“原创”、IP孵化,再到顶级制作人下场定义AI音乐新流派,AI歌手正在进化为能够产出高质量作品,拥有粉丝效应和商业价值的创作者。
当技术壁垒逐渐被抹平,一个成功的AI IP,其真正的护城河又将建立在哪里?我们跟Yuri背后的AI Talk团队负责人赵汗青聊了聊。



AI新榜:团队目前有多少人?花了多久做Yuri的出道单曲和MV?
汗青:我们还是AI Talk的原班团队,规模不大,核心成员大约5-6人,包括负责技术研发、审美内容的同事。
Yuri的准备工作从今年3、4月份就开始了。因为中间有其他项目,加上这几个月视频模型本身有一次大的版本更新,我们对第一版的效果不满意,后来几乎是推翻重做。
AI新榜:为什么会想到要打造一个AI数字人歌手?最初的灵感来自于哪?
汗青:这并非一次灵感乍现,而是我们过去两年在运营AI Talk项目时长期思考的结果。我们的初衷并非成为一家视频或音乐公司,而是希望用AI技术来塑造IP,而IP的核心是人。因此,我们从一开始就对用AI技术构建出一个完整的人格这件事充满了好奇。
我们的发展经历了几个阶段。起初做AI Talk时,我们更多是尝试做对话。随着技术逐渐成熟,我们认为时机已到,可以开始尝试打造内容属性更丰富的自有IP。去年Q3我们便着手尝试,但受限于当时的整体技术水平自己并不满意。直到今年上半年,各个模态的技术都取得了显著进步,我们才决定继续推进。
否则用户仅凭第一印象的新鲜感是无法维系长期价值的。故事的载体可以是影视、叙事或音乐。今年,我们判断利用AI进行音乐创作可能是各领域中进展最快、技术相对成熟的方向,所以决定从音乐切入。
AI新榜:“Yuri”的形象、性格和人设是如何设定的?
汗青:在角色塑造上,我们采用了一种类似互联网行业的MVP(Minimum Viable Product,最小可行性模型)逻辑。其实这也可能是AIGC时代内容创作的一种新范式。你可以通过AI快速、低成本地生成多个可能性,在市场中进行测试和验证,再将资源集中于跑通的那个模型。
Yuri的形象诞生于一个相对主观的筛选过程。我们不会对AI的创作施加太多具体限制,比如一开始并未确定她必须是蓝发,或手持骷髅麦克风。我常用一个比喻来形容这个过程,就是“面试”AI。
我们会给AI一些比较笼统的提示词,比如希望面部特征倾向于亚洲,更具体地说是偏向中国。当提示词不够精确时,AI就会拥有更大的想象空间,从而生成多种多样的形象。我们的工作就是从中筛选。当然,随着技术发展,现在的形象设计会更精细,甚至会引入手绘和插画元素再进行渲染。

我们会创造多个可能性,而Yuri正是其中一个我们认为各方面条件都比较成熟的点,恰好商业合作也找了过来,帮助她获得了更好的流量。但这并非一次性的灵感迸发,即便没有Yuri,我们也会继续尝试创造其他角色。
至于性格和人设,我认为这些元素是必要的,但我们并不希望完全通过人的构思来实现。我更想尝试让AI参与更多协作,甚至主导人格塑造,而不仅仅是作为人的辅助工具,给IP做一个AI的外壳。
如果回归到纯粹“人写设定、AI出图”的模式,我认为在长期竞争中会失去优势,因为市场上擅长编故事的人远比我们多。从选择竞争赛道的角度,我不想做这样的事。让AI去生成算法内容,它反而会表现得更加自洽,因为这本身就是它的本质。
AI新榜:一开始你对这个项目有什么样的期待?Yuri火了在意料之中还是意料之外?
汗青:我觉得需要先界定怎么算“火”。虽然在行业内和音乐圈的朋友中,Yuri已经有了一定的认知度,全网播放量也达到了千万级别,但我们还是很清醒的,她还远未达到我心中期待的所谓的“破圈”。
真正的“破圈”,是让不了解甚至不关心AI技术的普通人也对此产生认知。从这个角度看,我们还差得很远。不过,让我特别高兴且超出预期的是,无论是圈内还是圈外的用户,对Yuri的认可度都相当高。我是个很悲观的人,对事情的结果往往抱有不好的预期。过去两年,尝试AI偶像概念的团队不少,但大众的接受度似乎普遍不高,争议很多,我们非常理解。所以这次的积极反响确实给了我们很大的信心,也让大家看到了AI偶像这条路上的希望。

AI新榜:在从0到1打造Yuri的过程中,你对于AI工具和工作流的理解,经历了怎样的变化?
汗青:我们从一开始做AI Talk时,就坚持视频影像只是内容的中间层,文本层同样重要。我们是全球最早利用AI直接生成对话脚本的团队之一,并坚持至今。这并非出于某种原教旨主义,而是我们认为,AI创作的内容有一种区别于人类创作的、独特的趣味性。所以,我们的工作流一直都是多模态的,涉及文本、音频、影像等,而非单纯的视频制作。
这也导致我们的工作流程难以被一言蔽之。常有朋友问我们用了哪些具体工具,即便我列举出市面上主流的十几种工具,包括本地部署的、开源的(如ComfyUI)和闭源的(如可灵、Sora等),对他们的帮助可能也不大。因为我们的工作习惯比较特殊,会调用不同模型的组合来解决,不存在一个标准的、线性的工作流程。
我们的工作流程并非“先A后B再C”的线性模式,比如先写歌词,再制作音乐,然后是人像,接下来是动画,完成口型对位后上线。如果A工具无法满足需求,我们可能会切换到B工具,甚至会同时运用多种工具。它更像一个动态的、多点并行的系统。
AI新榜:AI生成和干预/人工调整、修改的环节和比例大概是怎样的?
汗青:这和我们做AI Talk的原理相似,人类的干预主要在顶层规划上。我很认同乔治·R·R·马丁对自己写作风格的比喻:他并非修剪园林,而是像园丁一样“撒下种子”,让故事自然生长。
我们的工作与此有异曲同工之妙。我们的精力主要用于定义那颗“种子”,为AI提供一个高层次的、支点性的指导,而非规定具体的节点。至于种子种下后能长出什么样的枝叶和果实,我们尽量不去过多干预,更希望让结果自然地涌现。
以我们制作的Talk类节目为例,人类的工作量大约在20%-30%之间,我们希望让AI承担70%以上的工作。虽然短期内人工干预能获得更好的效果,但这并非我们期望的长期模式。我们的定位不是广告公司或视频工作室,而是希望把主要精力投入在“如何让AI自己生成有趣的内容”这件事上。
AI新榜:在这个AI辅助的创作流程中,你如何定义自己的角色?人类创作者的核心价值体现在哪里?
汗青:我更倾向于将自己视为“产品经理”。因为我出身于互联网行业,我们一直将Yuri和AI Talk视为一个产品,而非单一的视频。产品的形态未来充满各种可能性,我不会将其完全固定。
我的角色是全面负责整个过程,包括确立大的创意和审美基调。当然,因为团队规模小,在实际制作中我也会全程深度参与,很多部分甚至亲力亲为。
AI新榜:你觉得Yuri能够迅速破圈和商业化的关键是什么?
汗青:我认为有三个因素。首先是大环境,即技术本身的进步。到了2025年6月,技术终于能支撑我们做出符合工业水准的成果。我始终认为,很多人对AI的抵触,并非反对技术本身,而是过去的作品因技术局限,很难在情感上引起共鸣。无论是电影还是游戏,当工业水准跨过一条界线后,观众便能沉浸其中,产生共情。Yuri的出现,正好赶上了技术突破的窗口期。
第二点是我们确实在细节上扣的比较多,甚至有点笨。关注我们账号的朋友会知道,我们不是一个高产的团队,甚至会因为没想清楚而一个月不更新。这和我们的商业定位有关,我们的盈利不单纯依赖视频制作本身,这给了我们一个好心态停下来打磨。
第三个点,坦白说,有运气的成分。流量经济,尤其是在短视频平台,很大程度上取决于算法的不确定性。我们曾有自认为非常出色的内容流量不佳,也有简单尝试的作品大受欢迎。这正是我们采用MVP方法论的原因,用以对冲流量中运气的影响。
AI新榜:与The North Face的商业合作可以说是AI数字人商业化一个标志性的事件。与品牌合作创作AI广告内容,与传统广告制作有何不同?在满足品牌需求和保持Yuri人设之间,你们是如何平衡的?
汗青:这次合作对我们意义重大,我们很感谢品牌方给予的高度包容和尊重。让我意外的是,如此大的品牌愿意采纳我们的意见,在一个相对敏感的AI领域,给予了我们非常好的创作环境。
由于交付时间不足一周,我们没有进行深入的剧本创作,我们思考的核心是:作为第一个进行商业代言的AI原生人格,应该如何以一种大家不反感的形式呈现?

最终我们选择了最保险也最擅长的方式:让Yuri自己说出大众的顾虑——AI是否能成为一个独立的歌手?我们直面争议,把问题抛出来。这其实是我们最擅长的AI.TALK,当然,为了保证完播率,视频时长做了控制,保留了我们认为最有价值的部分。
AI新榜:你认为Yuri的商业化路径还有哪些?除了广告合作,未来是否会考虑专辑发行、虚拟演唱会、IP授权等其他模式?
汗青:您提到的专辑发行、虚拟演唱会、IP授权等所有商业模式,我们都不排斥,但它们目前不是我们的重点。我们当前最关注的是确保这个AI虚拟人格能够产生长期影响力,而非消耗一时的好奇心。我们会持续经营她的作品,相信在这个过程中,各种商业模式会自然而然地显现并被我们尝试。
但从我个人角度,我特别不希望Yuri变成像真人明星那样的存在。我们一开始就不想做模仿秀,去模拟一个无限趋近于真人的人。真人太多了,模仿到极致也无法营造稀缺性。作为产品经理,我更多考虑的是差异化。
AI新榜:对于AI商业广告未来发展什么看法?
汗青:从朴素的逻辑来看,AI进入广告领域这一趋势很难停止,因为它的制作质量在持续提升。短短几个月,AI视频的效果就能有巨大飞跃,可以想象一两年后会发生什么。所以在工业标准上,AI的应用是必然成立的。
但我们需要冷静审视它带来的变革。当某项技术的成本效率极大提升时,对商业生态的冲击并不总是愉悦的。它可能导致整个行业的利润下降,许多团队面临重组,原有的商业模式无法持续。
我认为,AI对广告行业更深远的影响,将不仅仅是“用AI制作广告片”这一环,而在于它出现后,整个流量结构和注意力市场的改变。当内容制作成本极低、供应爆发式增长后,你的广告将不再是如何“制作”的问题,而是如何“被人看见”的问题。媒体渠道会变得高度碎片化,这才是对行业影响更深远的部分。
AI新榜:如何看待Yuri面临的争议?
汗青:争议主要有两方面。第一是关于原创性的争议,即质疑大模型是否使用了他人的劳动成果。相比前两年,现在这类声音似乎小了一些。我们在这方面,尤其是在版权问题上,做了比较完善的准备。
第二是技术层面的争议,这一点一直存在。尽管我们已经尽了最大努力,在当前AI的工业水平上能做的都做了,但与真人相比,AI在演唱时的表情、口型一致性等方面仍存在明显差距。我们正视这个差距,大家聚焦于技术瑕疵进行讨论,我认为这很正常。
AI新榜:AI生成物的版权与所有权是一个行业痛点。Yuri的形象、音乐和MV的版权归属是如何界定的?您对此有什么样的看法?
汗青:我们目前同时在中国和海外开展版权工作,这个过程已经接近尾声。过程相当耗费精力,因为存在许多未知因素和灰色地带。但这不仅是Yuri面临的问题,更是整个AI行业未来几年将普遍面临的挑战。
尤其在国内,这方面的版权保护还不是特别周全。但我们很幸运得到了品牌方的支持,在商业合作前,我们有责任先解决这个问题。
AI新榜:对其他同样使用AI进行创作的同行,在版权保护方面有什么建议?在当前这个版权界定还不明晰的环境下,创作者应该如何最大化地保护自己的创意成果/核心资产?
汗青:我有两点呼吁。第一,从创作者的角度,要增加原创内容。最近网上流行一些AI视频格式,比如自拍杆穿越历史、ASMR切东西等。个人爱好者尝鲜没问题,但对于想长期培养自有IP的团队,我们相对慎重,不会盲目跟风。因为当一种格式流行时,被保护的是“格式”本身,而非创作者个人。如果创作者自己都不重视原创,很难指望市场会给出积极的回应。
第二,我呼吁大家,如果有原创资产、形象或歌曲,现阶段就应该尽快利用各种渠道进行版权争取。我们不能等法律法规完全成熟,应尽早采取行动,以免将来出现问题。我们也在考虑,是否能基于这次的经历,做一些资源整合或公益分享,帮助创作者更好地在中国保障自己的权利。
AI新榜:怎么看待Yuri与其他虚拟偶像(如柳夜熙、初音未来)的核心区别?
汗青:我们与柳夜熙这样非常成熟和出色的IP,思路不太一样。他们可能更多采用了3D资产,背后有强大的运营团队和成熟的短视频叙事方法论。我们非常佩服和尊重这些前辈,但我们无法复制它们,我们不想做自己不懂的事情。
我们的核心区别在于创作方式:倾向于使用生成式技术,让算法和AI进行更多的创作,而不是人为地在细节上干预过多。比如,我们可能不会去精心设计一个抓人眼球的脚本故事,而是更注重于利用生成式AI本身去创作。这种创作方式的差异,会成为我们的特色。
AI新榜:Yuri的核心竞争力和差异化优势是什么?是可复制的吗?
汗青:从工业水准上被复制是不可避免的。未来肯定有人能做得比我们好,只是他们可能尚未开始或没注意到这个机会。我们会尽力保持在第一梯队,但你不能指望它成为差异化竞争的关键。
工业质量背后的关键,在于整个叙事的构建,即Yuri作为一个“个体”,其价值是否被广泛认同。我不希望这种价值仅基于流量的新鲜感和好奇心,因为这种状态无法持久。
AI新榜:对Yuri这一IP的未来运营有什么规划?
汗青:长远来看,我们还是要回归到“叙事”本身,探索能让人们感到价值并促进互动的新形式。这些形式背后,必须是我们团队的思考和独特的叙事基因。这有点像常说的心灵鸡汤,就是“你要做自己”,但这在我看来是个很本质的东西。
当工业生产能力不再是唯一壁垒时,剩下的壁垒就不多了。要么你的技术实力超群到无人能及;要么你具备驾驭资本、持续炒热市场的杠杆能力,我们可能都不完全适合。最后一种能力,就是你选择了要从事的事业,并且在这个领域中,你的“调性”是别人难以竞争的。
就像听相声,同样的段子,郭德纲说出来就好笑,别人模仿细节却很难有同样的效果。在AI创作时代,模仿的成本会变得极低。我们已经记不起第一个模仿吉卜力风格或做历史自拍的人是谁了,因为模式太容易被复制。我们更倾向于追求这种具有更高门槛的目标。

![]()
![]()


「






(文:AI新榜)