开源AI零样本照片转舞蹈视频项目,可玩性极高,远超之前所有同类开源项目。

这应该是我见过可玩性极高的开源的AI跳舞项目了。

之前推荐过几个类似的项目,但也只是能通过骨架让人物具有舞蹈的肢体动作。

今天给大家推荐的X – Dyna有个不同的点,还可以让原图的背景也动起来,环境效果对于舞蹈视频来说肯定是个巨大的进步,如果背景是星星,那星星可能就会一闪一闪的。

可玩性强就意味着商业价值更高,起码能让用户感觉眼前一亮。

扫码加入AI交流群

获得更多技术支持和交流

(请注明自己的职业)

项目简介

X-Dyna 是一个开源的零样本人像视频动画项目,基于扩散模型开发。它能够通过驱动视频中的面部表情和身体动作,将单张人像图片动画化,并生成具有真实感和环境动态的视频内容。X-Dyna 的核心是 Dynamics-Adapter 模块,它能够将参考图像的外观信息无缝整合到扩散模型中,同时保留动态细节的生成能力。

X-Dyna还引入了局部控制模块,用于捕捉与身份无关的面部表情,从而实现更逼真的表情传递。X-Dyna 在多样的人像和场景视频数据上进行训练,能够生成流畅的肢体动作和自然的环境效果,如瀑布、雨景和烟花等。

DEMO

技术特点

技术原理

1.扩散模型

X-Dyna 使用预训练的扩散 UNet 作为生成骨干网络,通过逐步去噪过程生成图像序列。扩散模型从高斯噪声开始,逐步恢复出目标图像,这一过程在生成视频动画中表现出色。

2.  动态适配器

为解决传统方法中动态细节丢失的问题,X-Dyna 引入了 Dynamics-Adapter 模块。该模块通过轻量级的跨帧注意力机制,将参考图像的外观信息无缝整合到扩散模型的空间注意力中。它通过可训练的查询投影器和零初始化的输出投影器与扩散骨干网络结合,确保模型在生成动态细节时的能力不受影响。

3.  局部面部控制模块

为了实现更自然的面部表情传递,X-Dyna 引入了 S-Face ControlNet。该模块通过合成跨身份的面部表情图像进行训练,能够隐式地学习面部表情和头部动作。这种设计不仅提高了表情传递的准确性,还减少了身份信息的泄露。

4.  混合数据训练

X-Dyna 采用混合数据训练策略,将人类动作视频和自然场景视频结合在一起进行训练。这种策略使模型能够同时学习人物动态和环境效果,生成更逼真的动态纹理。

创新点

1.动态细节增强

Dynamics-Adapter 模块通过保留扩散模型的动态生成能力,解决了传统方法中因强外观约束导致的动态细节丢失问题。X-Dyna 能够生成生动的动态纹理,如飘动的头发、流动的衣物,以及自然环境中的瀑布、雨景等。

2.  零样本动画生成

X-Dyna 无需额外训练即可直接生成动画,具有更高的灵活性和适应性。这种零样本特性使其在实际应用中更加高效,无需大量数据进行微调。

3.  面部表情传递

通过局部控制模块,X-Dyna 实现了与身份无关的面部表情传递。这一创新显著提升了动画的表达力和真实感,使其在虚拟人和数字艺术领域具有广泛的应用前景。

4.  混合数据训练策略

X-Dyna 结合人类动作视频和自然场景视频进行训练,不仅增强了模型对人物动态和环境效果的学习能力,还能生成更协调的背景动态。

5.  身份保持与高质量视觉效果

X-Dyna 在生成动画时能够有效保持参考图像的身份特征,同时生成高质量的视觉效果。通过用户研究和定量评估,X-Dyna 在动态纹理生成、身份保持和整体视觉质量方面均优于现有方法。

项目链接

https://x-dyna.github.io/xdyna.github.io/

 关注「开源AI项目落地」公众号

(文:开源AI项目落地)

发表评论