阿里通义推Animate Anyone 2,替身演员要失业了

作者子川

来源AI先锋官

阿里最新推出这项技术,实现我在NBA扣篮的梦想。
就像这样——

如果里面的主人公是你,是不是一件非常酷的事情。
在过去,我们要完成上面类似的视频,第一想法就是换脸,但在换脸后,会发现一个特别明显的缺陷,那就是脸和身子严重不匹配,脸是我的脸,但身子却是他人的。
基于此,阿里巴巴通义实验室最近推出了 Animate Anyone 2 ,它可以让静态的人物图片完美的替换视频中的任意角色。
换句人话:替身演员危矣!
比如,躺在沙发上刷抖音,看到一个女生耍花枪很厉害,灵机一动,想让小丑来表演,是不是会有另一番滋味呢。
就像这样:

还能让C罗给我们表演飞檐走壁。

佩总表演杂耍。

让周星驰代替憨豆先生体验骑自行车。

从上面的视频不难看出Animate Anyone 2在角色与环境融合方面表现出色,尤其是在角色进行复杂动作时,整体效果依然保持得相当不错。

据悉,研究人员在多个数据集上测试了 Animate Anyone 2 的性能,包括 TikTok 数据集和一个包含 10 万段视频的自定义数据集。

结果显示,无论是在单帧质量评估(如 SSIM、PSNR)还是整体视频保真度(如 FVD)方面,Animate Anyone 2 都远远超过了现有的其他方法。

不过遗憾的是,目前还没有相关产品发布出来,只能等了……

除了Animate Anyone 2外,Viggle早在之前就发布了一个类似的功能,阿里巴巴通义实验室研究人员还做了深层次的对比。

结果也很明显,Viggle完败。

Viggle的输出在环境和人物的融合方面做得不到位,而且人物的动作生硬且缺乏自然流畅性,同时无法有效捕捉角色与周围环境之间的互动细节。

相比之下,Animate Anyone 2在这些方面表现得更加自然。

虽然Animate Anyone 相较Viggle而言,是取得了领先的地位,但缺陷也能一眼就看到的

尤其在做复杂动作时,人物和环境格格不入,依旧有AI感,同时输出的角色还会出现变形等问题。

就像这样——大姆总变小姆总了。

话虽如此,Animate Anyone 2的表现也足以让小编竖起大拇指,毕竟这项技术上得到了进步。

那到底是原因让Animate Anyone 2表现得如此出色呢,我们趴拉了一下他们的论文。

找到了其核心技术和设计理念的总结:

环境感知(Environment Affordance)

Animate Anyone 2的一个重要创新是加入了“环境感知”。以前的动画方法只关注人物动作,但这个方法不一样。它会从视频里提取背景信息,让动画人物能更好地融入周围环境。具体来说:

  • 环境定义:从视频里把人物的部分去掉,剩下的就是环境。然后把环境信息输入给模型,让模型学习人物和环境之间的关系。
  • 形状无关掩码(Shape-agnostic Mask):为了避免人物边界和掩码(一种用来标记人物的工具)之间关联太强,它把人物掩码分成很多小块,通过这些小块的最大值生成新的掩码。这样就能让模型更好地学习人物和环境怎么融合。
  • 随机缩放增强:为了让人物和互动对象的大小更灵活,它会对视频进行随机缩放,增加训练时的多样性。

物体交互增强(Object Interaction Enhancement)

为了让动画中人物和物体的互动更自然,Animate Anyone 2用了两个新方法:

  • 物体引导器(Object Guider):用一个轻量级的网络提取与人物互动的物体的特征,这样能保留物体的细节,避免直接拼接特征时丢失细节。
  • 空间混合(Spatial Blending):把物体的特征通过一种特殊的方式融入生成过程中。它会计算物体特征和角色特征的融合权重,动态地把它们结合起来,让生成的动画里人物和物体的互动更复杂、更自然。

姿态调制(Pose Modulation)

Animate Anyone 2还有一种新策略,用来让角色的动作更自然、更稳定:

  • 深度感知姿态调制:在骨架信号(就是人物动作的基本框架)的基础上,增加了深度信息。通过骨架掩码提取深度信息,再用一种特殊的机制把深度信息融入骨架特征里,让模型更好地理解肢体之间的空间关系。
  • 时间运动建用3D卷积网络(一种处理视频的技术)对运动信号进行时间建模,让帧与帧之间的动作更连贯,减少错误信号的影响。

扩散模型框架(Diffusion Model Framework)

Animate Anyone 2是基于扩散模型框架的。它用预训练的变分自编码器(VAE)把图像从像素空间转换到潜空间,通过逐步去噪的方式生成高质量的动画视频。

扩散模型的好处是能生成更稳定、更一致的动画,还能处理复杂的条件生成任务。

自监督学习(Self-supervised Learning)

在训练时,Animate Anyone 2采用自监督学习。它从参考视频里分离出人物和环境,通过重构视频的方式进行训练。这种方法能利用大量的无标注视频数据,让模型在各种场景和动作中学习到更强大的特征。
想象一下,未来你可以在抖音上轻松替换自己成为任何视频的主角,是不是很酷?
特别是对于内容创作者来说,Animate Anyone 2的出现打破了旧的创作框架,能让我们的灵感无限放大,或许人人是导演的那一天正在飞速到来。
 

(文:AI先锋官)

欢迎分享

发表评论