OmniHuman-1 目前正在即梦内测,点击「视频生成」,再点击「对口型」,如果你的账号出现了「大师模式」,那么恭喜你,已经体验到了。
你可能会问,人物的图片好找,但没有现成的音频,怎么办?没关系,可以在即梦的「文本朗读」框输入文案,然后选择喜欢的音色。
如果没有合适的选择,即梦还支持创建音色,只需 5 秒的音频素材,于是我上传了马斯克的演讲片段,生成了他的音色。
然后,再随便找一张马斯克的图片,输入文案「全世界最聪明的 AI,Grok 3,现在免费,直到我们的服务器崩溃」。
接下来我们就可以看到,马斯克摇头晃脑地讲着歪果仁味道的中文,语气还怪礼貌的,背景里隐隐约约有汽车开过。
真人正脸,属于挑战性最低的测试了,动漫正脸,即梦也能轻松驾驭。
我上传了之前用 AI 生成的一张图片,让主角演绎《武林外传》郭芙蓉的经典台词,「姑奶奶今天不把你打得桃花满天红,你就不知道姑奶奶心花为谁开 」。
表情的变化和台词的语气是对应的,主角甚至还会耸肩,演技至少在小鲜肉的及格线水平。
继续上强度,如果一张图片里有多个人,而且是难度更高的全身,AI 基本都能让他们参演,但离画面较远的,或者嘴巴被遮盖的,可能就在状况外。
虽然美中不足,但即梦的细节又弥补了这一点:背景的火光和烟雾是自然运动的。
刁钻角度的侧脸图片,即梦也能对上口型。少女的珍珠耳环自然地晃动,因为说话才完整露出的牙齿也很清晰,但她的脖子和嘴唇有些用力过猛。
比起单纯的说话,有乐器伴奏的对口型表现稍微差了一些,但拉琴的动作大抵是到位的。
当主角不是人,问题也不大。《机器人之梦》的狗狗唱起了《甜蜜蜜》,机器人虽然没开口,但它的眼神和狗狗互动了。
基于实践,我们可以总结 OmniHuman-1 的几个特点:
正脸、侧脸、多人、单人、非人、全身、半身,都能对上口型。
除了口型,表情、手势、身体动作、背景也会保持动态。
当嘴唇被口罩等物体完全遮挡,可能会对不上口型,甚至生成失败。
当 AI 让对口型变得更简单也更自然,做一些整活向的、鬼畜的视频,也就比以前更加容易,不用再逐帧编辑和手动调整,或者让配音去配合人物的口型。
技术已经 next level,如果只是用简短的片段展示功能,多少有些浪费,于是,我们尝试用即梦生成了开头的银魂版《卖拐》。
操作起来也非常简单,首先,我截取了《卖拐》里超级经典的 30 秒音频,把它切分成了一段段的台词。
然后,查找多张符合语境的人物图片,让谁来演呢?我选择了《银魂》的坂田银时和志村新八,分别担任赵本山和范伟老师的角色,相对比较贴合他们的人设。
还差一个开头,我上传了万事屋的图片,用即梦生成了简单的镜头拉进效果。最后,用剪映把所有片段拼接在一起。视频里的片段,都只生成了一次,虽然粗制滥造,但有点内味了。
甚至,我们还可以用即梦生成一个漫威宇宙的 MV,让每个英雄深情地唱着属于自己的歌词,方法也很简单,用到了四种工具。
DeepSeek:根据每个英雄角色的性格特征生成歌词。
OmniHuman-1 的创新之处在于,团队为不同的训练任务,分配了不同质量的数据,克服了从前端到端方法由于高质量数据稀缺而面临的问题。
最终,OmniHuman-1 在基于弱信号输入(尤其是音频)生成极其逼真的人体视频方面,显著优于现有方法,它支持任何长宽比的图像输入,在各种场景中都能提供较高质量的结果。
官方案例
对于普通的用户而言,这就意味着,OmniHuman-1 把视频生成的门槛打下来了。当不要求必须是正脸图片,不要求必须是特写,生成的限制变得更少,想象空间变得更大,更多的镜头语言,可以被实现了。
我们或许真的会迎来,AI 数字人的规模化,演讲、直播、演唱会,都可以有它们的身影。爱因斯坦演说,霉霉唱日语歌,不存在的现实,可以由 AI 创造。现在的一些视频或许还能肉眼辨别,但当更多数字人能够自然地说话,我们也要准备迎接一个眼见不再为实、耳听也可为虚的未来。