
作者|子川
来源|AI先锋官
从上面的视频不难看出Animate Anyone 2在角色与环境融合方面表现出色,尤其是在角色进行复杂动作时,整体效果依然保持得相当不错。
据悉,研究人员在多个数据集上测试了 Animate Anyone 2 的性能,包括 TikTok 数据集和一个包含 10 万段视频的自定义数据集。
结果显示,无论是在单帧质量评估(如 SSIM、PSNR)还是整体视频保真度(如 FVD)方面,Animate Anyone 2 都远远超过了现有的其他方法。
不过遗憾的是,目前还没有相关产品发布出来,只能等了……
除了Animate Anyone 2外,Viggle早在之前就发布了一个类似的功能,阿里巴巴通义实验室研究人员还做了深层次的对比。
结果也很明显,Viggle完败。
Viggle的输出在环境和人物的融合方面做得不到位,而且人物的动作生硬且缺乏自然流畅性,同时无法有效捕捉角色与周围环境之间的互动细节。
相比之下,Animate Anyone 2在这些方面表现得更加自然。
虽然Animate Anyone 相较Viggle而言,是取得了领先的地位,但缺陷也能一眼就看到的:
尤其在做复杂动作时,人物和环境格格不入,依旧有AI感,同时输出的角色还会出现变形等问题。
就像这样——大姆总变小姆总了。

话虽如此,Animate Anyone 2的表现也足以让小编竖起大拇指,毕竟这项技术上得到了进步。
那到底是原因让Animate Anyone 2表现得如此出色呢,我们趴拉了一下他们的论文。
找到了其核心技术和设计理念的总结:
环境感知(Environment Affordance)
Animate Anyone 2的一个重要创新是加入了“环境感知”。以前的动画方法只关注人物动作,但这个方法不一样。它会从视频里提取背景信息,让动画人物能更好地融入周围环境。具体来说:
-
环境定义:从视频里把人物的部分去掉,剩下的就是环境。然后把环境信息输入给模型,让模型学习人物和环境之间的关系。 -
形状无关掩码(Shape-agnostic Mask):为了避免人物边界和掩码(一种用来标记人物的工具)之间关联太强,它把人物掩码分成很多小块,通过这些小块的最大值生成新的掩码。这样就能让模型更好地学习人物和环境怎么融合。 -
随机缩放增强:为了让人物和互动对象的大小更灵活,它会对视频进行随机缩放,增加训练时的多样性。
物体交互增强(Object Interaction Enhancement)
为了让动画中人物和物体的互动更自然,Animate Anyone 2用了两个新方法:
-
物体引导器(Object Guider):用一个轻量级的网络提取与人物互动的物体的特征,这样能保留物体的细节,避免直接拼接特征时丢失细节。 -
空间混合(Spatial Blending):把物体的特征通过一种特殊的方式融入生成过程中。它会计算物体特征和角色特征的融合权重,动态地把它们结合起来,让生成的动画里人物和物体的互动更复杂、更自然。
姿态调制(Pose Modulation)
Animate Anyone 2还有一种新策略,用来让角色的动作更自然、更稳定:
-
深度感知姿态调制:在骨架信号(就是人物动作的基本框架)的基础上,增加了深度信息。通过骨架掩码提取深度信息,再用一种特殊的机制把深度信息融入骨架特征里,让模型更好地理解肢体之间的空间关系。 -
时间运动建模:用3D卷积网络(一种处理视频的技术)对运动信号进行时间建模,让帧与帧之间的动作更连贯,减少错误信号的影响。
扩散模型框架(Diffusion Model Framework)
Animate Anyone 2是基于扩散模型框架的。它用预训练的变分自编码器(VAE)把图像从像素空间转换到潜空间,通过逐步去噪的方式生成高质量的动画视频。
自监督学习(Self-supervised Learning)
(文:AI先锋官)