图变动画新玩法!字节跳动团队提出DreamActor-M1框架,让图片超写实地“活”起来

文丨谭梓馨
人体图像动画是视频生成领域的一个热门研究方向,正在为电影制作、广告创意以及视频游戏等行业提供AI新助力。
然而,现有的很多方法存在明显缺憾,比如在实现细粒度的整体控制(如细微的眨眼动作和嘴唇颤动)、对多尺度输入(人像/上半身/全身)的泛化能力,以及时间连贯性(如对于未见过的衣物区域的长期一致性)等方面,仍存在一些关键挑战。
在最新发布的一篇论文中,字节跳动团队提出了一个基于扩散变换器(DiT)的框架DreamActor-M1,该框架通过混合引导机制可以实现整体的、富有细节表现的超写实人体图像动画制作,展现出了前所未有的效果,或能为生成式AI行业带来许多新创意。
新的技术优化途径
想实现多尺度驱动的合成、细粒度的面部和身体控制并非易事。
首先,仅使用单一控制信号来精确处理详细的面部表情和身体动作非常困难,尤其是要对细微的面部表情进行精准控制。
其次,由于输入数据不完整,且无法一次性生成较长的视频序列,模型在仅依赖参考图像和先前视频片段的最后一帧来进行后续处理的过程中,不可避免地会丢失未显示区域的信息(如背部衣物纹理)。
这种信息的逐渐丢失会导致在顺序生成的视频片段中,容易出现前后不一致变形的情况。
第三,在多尺度输入的情况下,不同的信息密度和重点优先级使得在单一框架内难以实现整体且富有表现力的动画效果。
字节跳动团队开发的DreamActor-M1是怎么做到的呢?具体方法和流程大概如下:

在动作引导方面,研究人员设计了一种混合控制信号,其中包括用于对面部表情进行细粒度控制的隐式面部潜在表征、用于控制头部大小和旋转的显式头部球体模型,以及用于控制躯干动作和骨骼长度调整的三维人体骨骼模型,这些信号能够在形状发生显著变化时实现稳健的自适应。

对于信息有限的场景(例如,多次旋转动作或局部身体参考),引入了互补的外观引导方法。首先从目标动作中采样不同的姿势,然后生成多帧参考图像来提供未显示区域的纹理信息,最后在视频片段之间传播这些参考信息,以便在长期的合成过程中保持细节的一致性。

为了实现多尺度自适应,研究人员采用渐进式训练策略,在包含不同类型场景(如人像表演、上半身说话和全身跳舞)的多样化数据集上对模型进行训练。

在训练阶段,首先从驱动帧中提取人体骨骼和头部球体模型,然后使用姿态编码器将它们编码为姿态潜在表征。

生成的姿态潜在表征会沿着通道维度与添加了噪声的视频潜在表征相结合。视频潜在表征是通过使用三维变分自动编码器(3D VAE)对输入的完整视频中的一个片段进行编码得到的。

此外,面部表情由面部动作编码器进行编码,以生成隐式的面部表征。需要注意的是,参考图像可以是从输入视频中采样得到的一帧或多帧图像,以便在训练过程中提供额外的外观细节,并且参考标记分支与扩散变换器(DiT)模型中的噪声标记分支共享权重。

最后,去噪后的视频潜在表征由编码后的视频潜在表征进行监督。在每个扩散变换器(DiT)模块中,面部动作标记通过交叉注意力机制(面部注意力,Face Attn)整合到噪声标记分支中,而参考标记的外观信息则通过拼接自注意力机制(自注意力,Self Attn)以及后续的交叉注意力机制(参考注意力,Ref Attn)注入到噪声标记中,完成更高质量的视频输出。

让各种图丝滑地“活”起来

只要给定参考图像和视频,DreamActor-M1就可以从视频中捕捉人类行为动作,制作出跨多个尺度(从肖像到全身动画)的极具表现力和逼真的人体视频,而且生成的视频具有时间一致性、身份保留性和高保真度。

DreamActor-M1可以支持多种真人动作、表情的无缝融合,而且对衣物纹理的处理表现非常自然,即便是转身的动作也没有扭曲变形:
此外,DreamActor-M1对于各种角色和动作风格都具有很强的鲁棒性,可谓啥图都可以生动地“活”起来,不管是平面的还是3D的,如果这种技术用于动漫生成可能会非常有意思。

这种方法还有非常灵活的可控性和稳健性,可以扩展到音频驱动的面部动画,提供多种语言的口型同步结果,也支持仅传输部分动作,例如面部表情和头部动作,还能够通过骨骼长度调整技术来适配具有形状感知能力的动画效果。

研究人员在论文中指出,目前DreamActor-M1框架仍存在的一些局限性,例如在控制动态相机移动方面存在固有的困难,目前无法生成与环境物体的物理交互效果,此外就是进行骨骼长度调整时,在极端情况下表现出不稳定性,需要进行多次迭代并通过手动选择来确定最佳情况。

不容忽视的滥用风险

图生视频在很多领域都有广泛的商业应用潜力。

例如,电商商家可以利用图生视频技术将商品图片快速转化为展示视频,无需真实模特和复杂的拍摄过程,就能生成具有电影级光影效果的视频;

在影视前期创意阶段,导演和编剧可以通过图生视频快速将分镜脚本的图片转化为动态视频,直观地感受剧情节奏和画面效果,及时调整创意和拍摄计划,节省后期制作的成本与时间等;

在游戏开发领域,图生视频技术将游戏场景、角色等静态设计图片转化为动态视频,生成无尽变化的可玩(动作可控)世界,为游戏开发提供新思路和方法;

在社交媒体领域,用户可以将自己的照片制作成视频,添加音乐、特效等增加内容的趣味性和吸引力,让静态的照片 “动” 起来,可以传达更丰富的情感和信息。

不容忽视的是,人体图像动画技术越厉害,存在的社会伦理风险可能也越大,DreamActor-M1也可能会被滥用制作出许多虚假视频,因此,字节跳动团队在论文里表示将严格限制对核心模型和代码的访问权限,以防止其被滥用。
在“人+AI共创” 的内容生产新时代,制定明确的伦理准则和负责任的使用指南越来越有必要。

(文:头部科技)

欢迎分享

发表评论