阿里通义推Animate Anyone 2，替身演员要失业了

作者｜子川

来源｜AI先锋官

阿里最新推出这项技术，实现我在NBA扣篮的梦想。

就像这样——

如果里面的主人公是你，是不是一件非常酷的事情。

在过去，我们要完成上面类似的视频，第一想法就是换脸，但在换脸后，会发现一个特别明显的缺陷，那就是脸和身子严重不匹配，脸是我的脸，但身子却是他人的。

基于此，阿里巴巴通义实验室最近推出了 Animate Anyone 2 ，它可以让静态的人物图片完美的替换视频中的任意角色。

换句人话：替身演员危矣！

比如，躺在沙发上刷抖音，看到一个女生耍花枪很厉害，灵机一动，想让小丑来表演，是不是会有另一番滋味呢。

就像这样：

还能让C罗给我们表演飞檐走壁。

佩总表演杂耍。

让周星驰代替憨豆先生体验骑自行车。

从上面的视频不难看出Animate Anyone 2在角色与环境融合方面表现出色，尤其是在角色进行复杂动作时，整体效果依然保持得相当不错。

据悉，研究人员在多个数据集上测试了 Animate Anyone 2 的性能，包括 TikTok 数据集和一个包含 10 万段视频的自定义数据集。

结果显示，无论是在单帧质量评估（如 SSIM、PSNR）还是整体视频保真度（如 FVD）方面，Animate Anyone 2 都远远超过了现有的其他方法。

不过遗憾的是，目前还没有相关产品发布出来，只能等了……

除了Animate Anyone 2外，Viggle早在之前就发布了一个类似的功能，阿里巴巴通义实验室研究人员还做了深层次的对比。

结果也很明显，Viggle完败。

Viggle的输出在环境和人物的融合方面做得不到位，而且人物的动作生硬且缺乏自然流畅性，同时无法有效捕捉角色与周围环境之间的互动细节。

相比之下，Animate Anyone 2在这些方面表现得更加自然。

虽然Animate Anyone 相较Viggle而言，是取得了领先的地位，但缺陷也能一眼就看到的：

尤其在做复杂动作时，人物和环境格格不入，依旧有AI感，同时输出的角色还会出现变形等问题。

就像这样——大姆总变小姆总了。

话虽如此，Animate Anyone 2的表现也足以让小编竖起大拇指，毕竟这项技术上得到了进步。

那到底是原因让Animate Anyone 2表现得如此出色呢，我们趴拉了一下他们的论文。

找到了其核心技术和设计理念的总结：

环境感知（Environment Affordance）

Animate Anyone 2的一个重要创新是加入了“环境感知”。以前的动画方法只关注人物动作，但这个方法不一样。它会从视频里提取背景信息，让动画人物能更好地融入周围环境。具体来说：

环境定义：从视频里把人物的部分去掉，剩下的就是环境。然后把环境信息输入给模型，让模型学习人物和环境之间的关系。
形状无关掩码（Shape-agnostic Mask）：为了避免人物边界和掩码（一种用来标记人物的工具）之间关联太强，它把人物掩码分成很多小块，通过这些小块的最大值生成新的掩码。这样就能让模型更好地学习人物和环境怎么融合。
随机缩放增强：为了让人物和互动对象的大小更灵活，它会对视频进行随机缩放，增加训练时的多样性。

物体交互增强（Object Interaction Enhancement）

为了让动画中人物和物体的互动更自然，Animate Anyone 2用了两个新方法：

物体引导器（Object Guider）：用一个轻量级的网络提取与人物互动的物体的特征，这样能保留物体的细节，避免直接拼接特征时丢失细节。
空间混合（Spatial Blending）：把物体的特征通过一种特殊的方式融入生成过程中。它会计算物体特征和角色特征的融合权重，动态地把它们结合起来，让生成的动画里人物和物体的互动更复杂、更自然。

姿态调制（Pose Modulation）

Animate Anyone 2还有一种新策略，用来让角色的动作更自然、更稳定：

深度感知姿态调制：在骨架信号（就是人物动作的基本框架）的基础上，增加了深度信息。通过骨架掩码提取深度信息，再用一种特殊的机制把深度信息融入骨架特征里，让模型更好地理解肢体之间的空间关系。
时间运动建模：用3D卷积网络（一种处理视频的技术）对运动信号进行时间建模，让帧与帧之间的动作更连贯，减少错误信号的影响。

扩散模型框架（Diffusion Model Framework）

Animate Anyone 2是基于扩散模型框架的。它用预训练的变分自编码器（VAE）把图像从像素空间转换到潜空间，通过逐步去噪的方式生成高质量的动画视频。

扩散模型的好处是能生成更稳定、更一致的动画，还能处理复杂的条件生成任务。

自监督学习（Self-supervised Learning）

在训练时，Animate Anyone 2采用自监督学习。它从参考视频里分离出人物和环境，通过重构视频的方式进行训练。这种方法能利用大量的无标注视频数据，让模型在各种场景和动作中学习到更强大的特征。

想象一下，未来你可以在抖音上轻松替换自己成为任何视频的主角，是不是很酷？

特别是对于内容创作者来说，Animate Anyone 2的出现打破了旧的创作框架，能让我们的灵感无限放大，或许人人是导演的那一天正在飞速到来。

（文：AI先锋官）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

环境感知（Environment Affordance）

物体交互增强（Object Interaction Enhancement）

扩散模型框架（Diffusion Model Framework）

自监督学习（Self-supervised Learning）

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复