港大联合清华发布AI可控角色视频生成框架，将任意角色图像与目标视频结合生成高质量角色视频。

这个项目还是新鲜出炉的。

2月12号刚刚发布。

能明显感觉到AI类模型在年后突然又涌现出一大批。

可能去年年底都在憋大招吧。

给大家简单介绍下这个项目，因为刚发布，重点看看DEMO，跟之前推荐的类似项目对比下。

扫码加入AI交流群

获得更多技术支持和交流

（请注明自己的职业）

项目简介

AnyCharV 是一个可控角色视频生成框架，能够将任意角色图像与目标驱动视频结合，生成高质量的角色视频。该方法通过“细到粗”的引导策略和两阶段训练机制，实现了角色细节的高保真度和复杂场景的自然融合。在第一阶段，模型利用细粒度分割掩码和姿态信息完成角色与场景的初步合成；第二阶段通过自增强训练，借助粗略的边界框掩码进一步优化角色细节。具有非常强的灵活性和高保真度。

DEMO

技术特点

1.细到粗的引导策略

在第一阶段，通过细粒度分割掩码和姿态信息实现角色与目标场景的精准合成，确保运动和场景的正确性。
在第二阶段，采用粗略的边界框掩码进行自增强训练，减少细粒度掩码对角色形状的干扰，更好地保留角色细节。

2.两阶段训练机制

第一阶段：自监督学习，利用细粒度掩码和姿态信息完成角色与场景的初步融合。
第二阶段：自增强训练，通过生成的视频对进行训练，进一步提升角色细节的保真度和自然度。

3.高保真角色细节保留

引入参考图像的多路径特征注入（如 CLIP 编码器和 ReferenceNet），确保角色外观和身份的高保真度。
通过自增强训练和粗掩码引导，显著减少生成视频中的模糊和伪影。

4.灵活的场景与角色融合

能够将任意角色图像与任意目标视频场景结合，支持复杂的背景和人-物交互。
适用于多种应用场景，如艺术创作、影视制作和虚拟角色生成。

5.高效生成与广泛兼容性

生成效率高，仅需 5 分钟即可生成 5 秒的 24FPS 视频。
支持与文本到图像（T2I）、文本到视频（T2V）模型生成的内容结合，展现出强大的泛化能力。

项目链接

https://anycharv.github.io/

关注「开源AI项目落地」公众号

（文：开源AI项目落地）

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复