阿里推出实时人物视频生成系统ChatAnyone

项目简介

实时交互式视频聊天肖像越来越被视为未来趋势，尤其是由于文本和语音聊天技术的显著进步。然而，现有方法主要关注实时生成头部动作，但难以产生与这些头部动作同步的身体动作。此外，实现对说话风格和面部表情细微差别的精细控制仍然是一个挑战。为了解决这些限制，我们引入了一种用于风格化实时肖像视频生成的新颖框架，使视频聊天从头部谈话扩展到上半身交互，具有表达性和灵活性。我们的方法包括以下两个阶段。第一阶段涉及高效的分层运动扩散模型，该模型基于音频输入考虑显式和隐式运动表示，能够生成具有风格控制和头部与身体运动同步的多样化面部表情。第二阶段旨在生成包括手势在内的上半身动作的肖像视频。我们将显式的手部控制信号注入生成器，以产生更详细的手部动作，并进一步进行面部细化，以增强肖像视频的整体真实感和表现力。此外，我们的方法支持在 4090 GPU 上以最大 512 × 768 分辨率和高达 30fps 的帧率高效且连续地生成上半身肖像视频，支持实时交互式视频聊天。实验结果表明，我们的方法能够产生具有丰富表现力和自然上半身动作的肖像视频。

从单张肖像照片和音频实时生成上半身动画视频，支持风格化和双人互动，可以选择有无手势动作，口型同步、表情都还好

方法

提出了一种高效的分层运动扩散模型，用于音频到运动的表示，基于输入音频分层生成面部和身体控制信号，同时考虑显性和隐性运动信号以实现精确的面部表情。此外，引入了细粒度表情控制，以实现表情强度不同的变化，以及从参考视频中实现的风格化表情迁移，旨在产生可控和个性化的表情。
混合控制融合生成模型旨在用于上半身图像生成，该模型利用显式关键点进行直接和可编辑的面部表情生成，同时引入基于显式信号的隐式偏移来捕捉不同头像风格上的面部变化。我们还注入显式手部控制，以实现更准确和逼真的手部纹理和动作。此外，采用面部细化模块来增强面部逼真度，确保高度表达和逼真的肖像视频。
构建了一个可扩展的实时生成框架，用于交互式视频聊天应用，该框架可以通过灵活的子模块组合适应各种场景，支持从头部驱动动画到带有手势的上半身生成的各种任务。此外，我们还建立了一个高效的流式推理管道，在 4090 GPU 上以最大 512 × 768 的分辨率实现 30fps，确保实时视频聊天中的流畅和沉浸式体验。

交互式演示

项目链接

https://humanaigc.github.io/chat-anyone/

扫码加入技术交流群，备注「开发语言-城市-昵称」

（文：GitHubStore）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

项目简介

方法

交互式演示

项目链接

发表评论 取消回复

发表评论取消回复