
AI宝宝说话视频(AI talking baby)正在席卷TikTok。
一夜之间,仿佛全世界的播客主持人、段子手、喜剧演员都有了“宝宝分身”。
最近,在X和TikTok等海外社交媒体平台上,有一个非常火爆的AI内容创作趋势,那就是AI baby podcast(AI宝宝播客)。
相关视频动辄超千万播放,几十万乃至上百万的点赞,一些专门制作此类内容的账号也迅速蹿红,其中一个代表性账号“babypodcast”,13天涨粉超22万。


这类视频的核心配方通常是:AI生成的可爱宝宝形象,一开口却是成年人的声音和颇具幽默感 / 戏剧性的内容,表情、动作都十分真实生动,以至于让不少网友怀疑人生。
TikTok点赞量62.4万、转发量15.8万
“这是真的吗”、“什么?这怎么可能呢…”、“这个宝宝真的说了这些话吗”、“这绝对不是AI生成的”……


实际上,大部分AI宝宝播客视频的剧本并非原创,而是使用了真人播客、喜剧演员、脱口秀、电视节目的原声片段,用AI生成的宝宝形象重新演绎这些台词(就好比用AI生成一个婴儿版的岳云鹏说相声),效果极具反差感和猎奇感。

Baby Trump
这些顶着奶萌婴儿脸,却一本正经聊着成年人话题、说着搞笑段子的“小大人”视频,究竟是怎么制作的?又为何如此让人上头?我们拆解了几个热门案例,试着探究背后用到的AI工具和制作流程。

AI宝宝播客视频火爆TikTok
据“AI新榜”观察,很多爆款AI baby播客视频,内容都取材于拥有广泛粉丝基础和讨论度的播客、节目或喜剧演员的经典段子,具体来源包括但不限于:
美国知名喜剧演员Theo Von
美国知名喜剧播客《Bad Friends》
美国知名喜剧播客《The Basement Yard》
美国减肥真人秀节目《1000-Lb. Sisters》
英国著名汽车节目 《Top Gear》和《The Grand Tour》
……
比如在这个视频中,两个AI宝宝的原声其实就源自喜剧播客《Bad Friends》。
TikTok点赞量80.6万、转发量22.7万
主持人Bobby Lee和Andrew Santino讨论到,狗是能够理解人类语言的,不同国家的狗,其叫声也带有该国语言的口音或特征。随后Bobby Lee搞笑地模仿了想象中不同国家狗的叫声,比如墨西哥的狗可能会发出类似西班牙语“Bow Wow”的叫声。
可以看到,两个AI宝宝不仅样貌与两位主持人神似,表情、嘴型和动作也都非常生动有表现力。
下面这个热门视频同样取材于《Bad Friends》播客,不过是将Bobby Lee和Andrew Santino的经典互损片段进行AI宝宝化再创作。
TikTok点赞量23.3万、转发量5.3万
Bobby:芝加哥的那只动物是什么?灰熊那种动物。
Andrew:芝加哥?
Bobby:是你妈妈(标志性的笑声)
Andrew:别提我妈妈
Bobby:只是个玩笑,放松啦。
Andrew:我妈妈很漂亮
Bobby:她是个很漂亮的女人
Andrew:不像你那斗鸡眼的妈妈(随后一边模仿斗鸡眼一边说:“我是Bobby的妈妈。”)
Bobby:你太刻薄了兄弟(笑声)
《Bad Friends》播客本身就以其口无遮拦、互相恶搞吐槽的喜剧风格著称,这种互相开玩笑、拿对方家人打趣的对话是他们节目中非常经典和常见的桥段。
创作者将他们之间这种充满成人幽默甚至略带冒犯的对话,原封不动地让两个表情天真无邪的AI宝宝演绎出来,荒诞感和违和感本身就构成了一个强烈的笑点,戏剧效果被瞬间放大。
另一位美国知名喜剧演员Theo Von的语料也在AI宝宝播客视频中高频出现,以下两条点赞量高达82万和116万的视频均使用了Theo Von在播客节目中的原声片段。

Theo Von
TikTok点赞量82.8万、转发量35.2万
TikTok点赞量116.3万、转发量45.7万
Theo Von独特的美国南方口音、略显跳跃和神经质的思维表达,本身就具有很强的辨识度和喜剧张力。再加上因为小孩子有时会无心地说出一些非常深刻或直白的大实话,所以当AI宝宝用一本正经的表情复述Theo Von的段子时,有网友表示比Theo Von本人讲出来更合理……

下面这个视频则取材于英国著名的汽车节目 《Top Gear》和《The Grand Tour》中的经典片段。
TikTok点赞量42.4万、转发量14.6万
在节目中,主持人Jeremy Clarkson经常会因为各种原因,冲他的搭档Richard Hammond大吼“Hammond!”或者“Hammond, you idiot!”等等。比如Hammond开车太慢、挡了他的路、或者做了什么蠢事。
这种充满喜剧效果的争吵和互坑,是节目非常核心的看点之一,贡献了无数被粉丝津津乐道的名场面。而“Hammond!”这声标志性的怒吼,在国外也已经成了一个广为人知的梗。
视频中AI宝宝歇斯底里的愤怒表情,可以说是非常准确传神的还原了节目中俩人的互动,让人再次惊讶于AI视频的真实程度……
下面这个视频则还原了美国真人秀节目《1000-Lb. Sisters》中的一个片段,Tammy和Amy是这档节目的主角,节目记录了她们的减肥之旅。
TikTok点赞量71万、转发量40.9万
除了取材于知名播客、喜剧演员或电视节目外,AI talking baby视频的另一个重要来源和表现形式是:演绎网络热梗、情侣间的趣味对话或经典“送命题”小剧场。
这和前面几个例子有所不同,它更侧重于生活化、具有普遍共鸣的幽默场景。比如下面这个片段就生动地展现了情侣间那种既好笑又带点“火药味”的日常互动。
TikTok点赞量67.7万、转发量15万
女宝宝:你宁愿亲我,还是为了100万美元亲世界上最漂亮的女孩?
男宝宝:当然是亲世界上最漂亮的女孩拿100万,然后我们就都有钱了。
女宝宝:你都没想过说,我就是世界上最漂亮的女孩吗?
男宝宝:但你不是啊……
女宝宝:如果你说我就是世界上最漂亮的女孩,那么亲我就可以拿到100万啊!
男宝宝:但你不是啊!
目前,这股AI talking baby的内容创作风潮,热度不仅丝毫未减,反而呈现出持续发酵的势头,新的创意和玩法不断涌现,有让AI baby唱歌的,有演绎经典影视剧片段的,似乎只要有音频,就能与AI宝宝的形象进行嫁接和二次创作。
原因可想而知,AI baby podcast的内容都取材于热门的播客或喜剧演员的片段,这些对话、段子、观点自带流量且已经过市场验证,具有较高的娱乐价值和传播潜力。
而且,原播客或喜剧演员本身就拥有庞大的粉丝基础,用AI talking baby这种新奇的方式重新演绎,相当于在原有粉丝圈层基础上,进行了二次破圈传播。原本可能略显深奥或小众的讨论,也在AI宝宝们的演绎下,意外地降低了门槛,吸引了更广泛的受众。
可爱无邪、不谙世事的婴儿形象与成年人世故、老成的言谈举止相结合,这种视觉与听觉的强烈反差是吸引眼球、制造笑料的核心。原内容越是成年人化,与婴儿形象的结合就越能产生滑稽感和荒诞感。
也有很多网友表示看这类视频很解压,婴儿的形象在一定程度上以一种轻松、戏谑的方式解构了成人世界的严肃话题。
不过归根结底,这类视频的流行也得益于AI生成技术的进步和易用性。AI图像工具如GPT-4o、Gemini、Midjourney、豆包等可以轻松生成婴儿图片,AI语音工具如ElevenLabs、Minimax的Speech 02模型等可以生成或克隆十分自然真实的声音,AI视频 / 数字人工具则能让静态图片动起来并同步口型。

揭秘大火的AI宝宝说话视频制作流程
相较于AI talking baby视频本身的热度,关于其背后具体使用了哪些AI工具的讨论并不多,但一个名为Hedra的AI工具被频繁提及。
基于一些创作者的分享和我们的实测,AI talking baby视频的制作流程大致分为三步。
第一步:生成AI宝宝图
市面上主流AI图像生成工具如Midjourney、GPT-4o、Gemini、Stable Diffusion、豆包、Ideogram等,都可以用来生成婴儿图片。大家可以基于价格、各自的特点和优势等因素来选择。关键在于通过具体的描述(如人物、服装、场景、面部特征强调)来引导AI模型生成符合预期的婴儿图片。
分享一句示例提示词:
photorealistic elon musk as a baby in a tesla t-shirt sitting in front of a podcast mic, elon musk face
逼真的埃隆·马斯克婴儿形象,穿着特斯拉T恤,坐在播客麦克风前,埃隆·马斯克的脸部特征
视频来源:X“venturetwins”
第二步:给AI宝宝配音
有了AI宝宝形象,下一步就是配音,音频的来源主要有两种,但关键都在于语音内容本身是否具有吸引力、戏剧性和传播潜力。
1. 使用现有音频片段
这是目前AI talking baby视频最常见的内容来源。创作者会从各种渠道寻找有趣、有梗、适合二次创作的音频素材。来源可以是热门播客、喜剧演员的脱口秀、经典电影或电视剧的对话、流行歌曲、网络疯传的搞笑音频等等。
如果素材来源于视频平台如YouTube,可以使用类似Cobalt这样的工具来下载和提取音频。当然,市面上也有其他多种音视频下载和格式转换工具可供选择。
2. 生成全新的AI语音
如果创作者有原创的文本内容,或者希望AI宝宝发出特定的声音,那么可以借助AI语音生成工具如ElevenLabs、Minimax Speech 02模型等。ElevenLabs以其高质量的文本转语音(TTS)和声音克隆功能而知名,能够生成非常自然和富有情感的语音。
无论是选择现有音频还是生成新语音,都需要注意版权问题,优先选择已获得授权或属于合理使用范围的内容,不能在未经授权的情况下克隆他人声音用于商业或其他非法用途。
第三步:让AI宝宝“开口说话”
最后把AI宝宝图片和准备好的音频文件上传至Hedra Labs,可以选择AI视频模型、视频比例、分辨率(最高720p),也可以输入提示词描述人物的情绪和动作。
AI会分析人物面部特征,并根据音频的情感、节奏和发音,为面部赋予自然的微表情和动态变化,并且与人物口型达到“音画同步”。

https://www.hedra.com/app/video

Hedra Labs(简称Hedra)是一家致力于打造“可信虚拟角色”和生成式角色创建基础模型的AI公司。
Hedra的核心技术支持用户仅通过一张静态肖像图片和一段音频输入,就能生成一个会说话、带有丰富面部表情和头部动态的视频。这与AI talking baby视频的制作需求高度吻合。
与其他一些AI视频生成工具相比,Hedra更侧重于角色动画的可控性和表现力,比如对角色的表情、声音以及肢体动作进行精细控制。对于想要让AI宝宝展现特定情绪(如愤怒、惊讶、喜悦)的创作者来说,这种可控性非常重要。
当然,这一技术的应用前景远不止于此,还可以用于创建数字人、虚拟助手、游戏角色、影视动画角色等。
就在昨天,Hedra宣布完成由a16z领投的3200万美元A轮融资,很难说跟这场现象级的AI talking baby内容创作热潮无关。




「
(文:AI新榜)