极度真实:腾讯开源数字人Sonic(附ComfyUI工作流)

在视频大模型领域,可灵(快手)、即梦(字节)已经对Sora形成了遥遥领先之势。

也许有人问了,腾讯去哪里了?

腾讯搞了个开源的混元视频大模型,其效果一点也不比Sora差。

但为什么名气不大呢?

其实主要是因为开源的视频大模型对机器配置要求过高导致的,像我的12G的3060,跑几秒钟视频要一个小时以上。

大部分爱好者没有那么强悍的显卡。

腾讯在开源频领域的成就,是独一档的。某种意义上讲,不亚于DeepSeek在生成式AI领域的地位。

今天给大家介绍一个腾讯和浙大合作的数字人技术:Sonic。

可以用一张照片+一段视频,生成可以动的数字人。

先放官方示例:

我们可以看到,视频能够很好的匹配口型。

其实在匹配口型方面,腾讯一年前就发布相关开源工具了,这次的Sonic操作更简便。

如今,有人适配了ComfyUI,我把节点做一下介绍。

一、插件地址

https://github.com/smthemex/ComfyUI_Sonic

二、模型安装

1、sonic模型(文末打包下载)及对应路径

— ComfyUI/models/sonic/
|– audio2bucket.pth
|– audio2token.pth
|– unet.pth
|– yoloface_v5m.pt
|– whisper-tiny/
|–config.json
|–model.safetensors
|–preprocessor_config.json
|– RIFE/
|–flownet.pkl

2、svd模型(文末打包下载)及对应路径

— ComfyUI/models/checkpoints
├──svd_xt_1_1.safetensors

三、工作流简介

需要注意的是,该插件需要transformers==4.43.2,如果高于或者低于该版本,有可能会出现无法正常运行的情况。

如果无法正常使用,可修改requirements.txt,将transformers==4.43.2前的“#”去掉,然后重启启动器。

ComfyUI\custom_nodes\ComfyUI_Sonic\requirements.txt

checkpoint加载器,加载svd_xt_1_1.safetensors

加载音频和加载图像,分别上传用来做数字人的声音和图片,图片建议背景干净的大头照。

SONICTLoader节点,加载unet.pth模型。

SONIC_PreData节点,其中frame_num为声音的长度,越长越耗时。

其余参数建议保持默认。

(小于16G显存的就尽量不要生成过长视频了,生成几秒钟意思意思得了。)

网盘下载:

https://pan.quark.cn/s/323447a53ead

(文:路过银河AI)

发表评论