现象级刷屏！AI宝宝播客视频火爆TikTok，背后“推手”Hedra获3200万美金融资

作者 | Kino

编辑 | 石濑

AI宝宝说话视频（AI talking baby）正在席卷TikTok。

一夜之间，仿佛全世界的播客主持人、段子手、喜剧演员都有了“宝宝分身”。

最近，在X和TikTok等海外社交媒体平台上，有一个非常火爆的AI内容创作趋势，那就是AI baby podcast（AI宝宝播客）。

相关视频动辄超千万播放，几十万乃至上百万的点赞，一些专门制作此类内容的账号也迅速蹿红，其中一个代表性账号“babypodcast”，13天涨粉超22万。

这类视频的核心配方通常是：AI生成的可爱宝宝形象，一开口却是成年人的声音和颇具幽默感 / 戏剧性的内容，表情、动作都十分真实生动，以至于让不少网友怀疑人生。

TikTok点赞量62.4万、转发量15.8万

“这是真的吗”、“什么？这怎么可能呢…”、“这个宝宝真的说了这些话吗”、“这绝对不是AI生成的”……

实际上，大部分AI宝宝播客视频的剧本并非原创，而是使用了真人播客、喜剧演员、脱口秀、电视节目的原声片段，用AI生成的宝宝形象重新演绎这些台词（就好比用AI生成一个婴儿版的岳云鹏说相声），效果极具反差感和猎奇感。

Baby Trump

这些顶着奶萌婴儿脸，却一本正经聊着成年人话题、说着搞笑段子的“小大人”视频，究竟是怎么制作的？又为何如此让人上头？我们拆解了几个热门案例，试着探究背后用到的AI工具和制作流程。

AI宝宝播客视频火爆TikTok

据“AI新榜”观察，很多爆款AI baby播客视频，内容都取材于拥有广泛粉丝基础和讨论度的播客、节目或喜剧演员的经典段子，具体来源包括但不限于：

美国知名喜剧演员Theo Von

美国知名喜剧播客《Bad Friends》

美国知名喜剧播客《The Basement Yard》

美国减肥真人秀节目《1000-Lb. Sisters》

英国著名汽车节目《Top Gear》和《The Grand Tour》

……

比如在这个视频中，两个AI宝宝的原声其实就源自喜剧播客《Bad Friends》。

TikTok点赞量80.6万、转发量22.7万

主持人Bobby Lee和Andrew Santino讨论到，狗是能够理解人类语言的，不同国家的狗，其叫声也带有该国语言的口音或特征。随后Bobby Lee搞笑地模仿了想象中不同国家狗的叫声，比如墨西哥的狗可能会发出类似西班牙语“Bow Wow”的叫声。

可以看到，两个AI宝宝不仅样貌与两位主持人神似，表情、嘴型和动作也都非常生动有表现力。

下面这个热门视频同样取材于《Bad Friends》播客，不过是将Bobby Lee和Andrew Santino的经典互损片段进行AI宝宝化再创作。

TikTok点赞量23.3万、转发量5.3万

Bobby：芝加哥的那只动物是什么？灰熊那种动物。

Andrew：芝加哥？

Bobby：是你妈妈（标志性的笑声）

Andrew：别提我妈妈

Bobby：只是个玩笑，放松啦。

Andrew：我妈妈很漂亮

Bobby：她是个很漂亮的女人

Andrew：不像你那斗鸡眼的妈妈（随后一边模仿斗鸡眼一边说：“我是Bobby的妈妈。”）

Bobby：你太刻薄了兄弟（笑声）

《Bad Friends》播客本身就以其口无遮拦、互相恶搞吐槽的喜剧风格著称，这种互相开玩笑、拿对方家人打趣的对话是他们节目中非常经典和常见的桥段。

创作者将他们之间这种充满成人幽默甚至略带冒犯的对话，原封不动地让两个表情天真无邪的AI宝宝演绎出来，荒诞感和违和感本身就构成了一个强烈的笑点，戏剧效果被瞬间放大。

另一位美国知名喜剧演员Theo Von的语料也在AI宝宝播客视频中高频出现，以下两条点赞量高达82万和116万的视频均使用了Theo Von在播客节目中的原声片段。

Theo Von

TikTok点赞量82.8万、转发量35.2万

TikTok点赞量116.3万、转发量45.7万

Theo Von独特的美国南方口音、略显跳跃和神经质的思维表达，本身就具有很强的辨识度和喜剧张力。再加上因为小孩子有时会无心地说出一些非常深刻或直白的大实话，所以当AI宝宝用一本正经的表情复述Theo Von的段子时，有网友表示比Theo Von本人讲出来更合理……

下面这个视频则取材于英国著名的汽车节目《Top Gear》和《The Grand Tour》中的经典片段。

TikTok点赞量42.4万、转发量14.6万

在节目中，主持人Jeremy Clarkson经常会因为各种原因，冲他的搭档Richard Hammond大吼“Hammond!”或者“Hammond, you idiot!”等等。比如Hammond开车太慢、挡了他的路、或者做了什么蠢事。

这种充满喜剧效果的争吵和互坑，是节目非常核心的看点之一，贡献了无数被粉丝津津乐道的名场面。而“Hammond!”这声标志性的怒吼，在国外也已经成了一个广为人知的梗。

视频中AI宝宝歇斯底里的愤怒表情，可以说是非常准确传神的还原了节目中俩人的互动，让人再次惊讶于AI视频的真实程度……

下面这个视频则还原了美国真人秀节目《1000-Lb. Sisters》中的一个片段，Tammy和Amy是这档节目的主角，节目记录了她们的减肥之旅。

TikTok点赞量71万、转发量40.9万

除了取材于知名播客、喜剧演员或电视节目外，AI talking baby视频的另一个重要来源和表现形式是：演绎网络热梗、情侣间的趣味对话或经典“送命题”小剧场。

这和前面几个例子有所不同，它更侧重于生活化、具有普遍共鸣的幽默场景。比如下面这个片段就生动地展现了情侣间那种既好笑又带点“火药味”的日常互动。

TikTok点赞量67.7万、转发量15万

女宝宝：你宁愿亲我，还是为了100万美元亲世界上最漂亮的女孩？

男宝宝：当然是亲世界上最漂亮的女孩拿100万，然后我们就都有钱了。

女宝宝：你都没想过说，我就是世界上最漂亮的女孩吗？

男宝宝：但你不是啊……

女宝宝：如果你说我就是世界上最漂亮的女孩，那么亲我就可以拿到100万啊！

男宝宝：但你不是啊！

目前，这股AI talking baby的内容创作风潮，热度不仅丝毫未减，反而呈现出持续发酵的势头，新的创意和玩法不断涌现，有让AI baby唱歌的，有演绎经典影视剧片段的，似乎只要有音频，就能与AI宝宝的形象进行嫁接和二次创作。

原因可想而知，AI baby podcast的内容都取材于热门的播客或喜剧演员的片段，这些对话、段子、观点自带流量且已经过市场验证，具有较高的娱乐价值和传播潜力。

而且，原播客或喜剧演员本身就拥有庞大的粉丝基础，用AI talking baby这种新奇的方式重新演绎，相当于在原有粉丝圈层基础上，进行了二次破圈传播。原本可能略显深奥或小众的讨论，也在AI宝宝们的演绎下，意外地降低了门槛，吸引了更广泛的受众。

可爱无邪、不谙世事的婴儿形象与成年人世故、老成的言谈举止相结合，这种视觉与听觉的强烈反差是吸引眼球、制造笑料的核心。原内容越是成年人化，与婴儿形象的结合就越能产生滑稽感和荒诞感。

也有很多网友表示看这类视频很解压，婴儿的形象在一定程度上以一种轻松、戏谑的方式解构了成人世界的严肃话题。

不过归根结底，这类视频的流行也得益于AI生成技术的进步和易用性。AI图像工具如GPT-4o、Gemini、Midjourney、豆包等可以轻松生成婴儿图片，AI语音工具如ElevenLabs、Minimax的Speech 02模型等可以生成或克隆十分自然真实的声音，AI视频 / 数字人工具则能让静态图片动起来并同步口型。

揭秘大火的AI宝宝说话视频制作流程

相较于AI talking baby视频本身的热度，关于其背后具体使用了哪些AI工具的讨论并不多，但一个名为Hedra的AI工具被频繁提及。

基于一些创作者的分享和我们的实测，AI talking baby视频的制作流程大致分为三步。

第一步：生成AI宝宝图

市面上主流AI图像生成工具如Midjourney、GPT-4o、Gemini、Stable Diffusion、豆包、Ideogram等，都可以用来生成婴儿图片。大家可以基于价格、各自的特点和优势等因素来选择。关键在于通过具体的描述（如人物、服装、场景、面部特征强调）来引导AI模型生成符合预期的婴儿图片。

分享一句示例提示词：

photorealistic elon musk as a baby in a tesla t-shirt sitting in front of a podcast mic, elon musk face

逼真的埃隆·马斯克婴儿形象，穿着特斯拉T恤，坐在播客麦克风前，埃隆·马斯克的脸部特征

视频来源：X“venturetwins”

第二步：给AI宝宝配音

有了AI宝宝形象，下一步就是配音，音频的来源主要有两种，但关键都在于语音内容本身是否具有吸引力、戏剧性和传播潜力。

1. 使用现有音频片段

这是目前AI talking baby视频最常见的内容来源。创作者会从各种渠道寻找有趣、有梗、适合二次创作的音频素材。来源可以是热门播客、喜剧演员的脱口秀、经典电影或电视剧的对话、流行歌曲、网络疯传的搞笑音频等等。

如果素材来源于视频平台如YouTube，可以使用类似Cobalt这样的工具来下载和提取音频。当然，市面上也有其他多种音视频下载和格式转换工具可供选择。

2. 生成全新的AI语音

如果创作者有原创的文本内容，或者希望AI宝宝发出特定的声音，那么可以借助AI语音生成工具如ElevenLabs、Minimax Speech 02模型等。ElevenLabs以其高质量的文本转语音（TTS）和声音克隆功能而知名，能够生成非常自然和富有情感的语音。

无论是选择现有音频还是生成新语音，都需要注意版权问题，优先选择已获得授权或属于合理使用范围的内容，不能在未经授权的情况下克隆他人声音用于商业或其他非法用途。

第三步：让AI宝宝“开口说话”

最后把AI宝宝图片和准备好的音频文件上传至Hedra Labs，可以选择AI视频模型、视频比例、分辨率（最高720p），也可以输入提示词描述人物的情绪和动作。

AI会分析人物面部特征，并根据音频的情感、节奏和发音，为面部赋予自然的微表情和动态变化，并且与人物口型达到“音画同步”。

https://www.hedra.com/app/video

Hedra Labs（简称Hedra）是一家致力于打造“可信虚拟角色”和生成式角色创建基础模型的AI公司。

Hedra的核心技术支持用户仅通过一张静态肖像图片和一段音频输入，就能生成一个会说话、带有丰富面部表情和头部动态的视频。这与AI talking baby视频的制作需求高度吻合。

与其他一些AI视频生成工具相比，Hedra更侧重于角色动画的可控性和表现力，比如对角色的表情、声音以及肢体动作进行精细控制。对于想要让AI宝宝展现特定情绪（如愤怒、惊讶、喜悦）的创作者来说，这种可控性非常重要。

当然，这一技术的应用前景远不止于此，还可以用于创建数字人、虚拟助手、游戏角色、影视动画角色等。

就在昨天，Hedra宣布完成由a16z领投的3200万美元A轮融资，很难说跟这场现象级的AI talking baby内容创作热潮无关。

「

（文：AI新榜）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

AI宝宝播客视频火爆TikTok

发表评论 取消回复

发表评论取消回复