腾讯混元开源新作!超强的音频驱动数字人生成模型,支持多角色、多风格及口型与表情同步!

腾讯混元与腾讯音乐联合开源的数字人音频驱动模型HunyuanVideo-Avatar,支持单或多角色对话和多种图像风格生成。通过一张人物图片和一段音频(最长14秒),生成高保真语音驱动动画,并引入了三项关键创新。

一张图片+ 一条音频,照片开口说话唱歌,多角色、情绪控制都拿捏了。

腾讯混元联合腾讯音乐发布新模型HunyuanVideo-Avatar,支持上传照片和音频生成动态视频。该模型能自动识别场景氛围和情绪,并且可以控制角色的情绪和多角色同框对话,已在多个App中应用。