首个开源AI音频驱动的「多人对话」视频生成项目，还能通过提示词控制角色动作。

音频驱动图片或者视频中人物说话的项目已经有很多了。

但是都有一个特点，只能驱动一个人物。

想实现生成两个人的对话不只是要把视频拆成两部分分别驱动，还有很多场景的限制。

今天给大家推荐一个可以驱动多人对话的项目。

现在还是只能驱动图片，估计驱动视频也不远了。

扫码加入AI交流群

获得更多技术支持和交流

（请注明自己的职业）

项目简介

MultiTalk 是由 MeiGen-AI 开发的音频驱动多人对话视频生成框架。它能基于多流音频输入、参考图像和提示词，生成符合提示且唇形与音频同步的互动视频，支持单人 / 多人对话、卡通角色生成、唱歌场景等。其具备 480p/720p 分辨率灵活输出、最长 15 秒长视频生成能力，还引入 Multi-GPU 推理、TeaCache 加速等技术优化性能，可用于虚拟人对话、动画制作等场景。

DEMO

提示词：

在一间温馨舒适的房间里，尼克·怀尔德，一只笑容顽皮的狐狸，坐在朱迪·霍普斯，一只表情坚定的兔子对面。两人都穿着休闲装：尼克身着绿色衬衫，系着条纹领带，朱迪则穿着蓝色套装，耳机放在桌上。一个迪士尼品牌的马克杯放在两人中间的木桌上。背景是乡村风格的室内，一盏灯、一扇窗户和各种家居用品，营造出温馨的氛围。一个中景镜头捕捉了他们互动的瞬间：尼克拿起马克杯，轻轻地触碰朱迪的头，暗示着他们之间友爱的情感和联系。

提示词：

两人坐在工作室的白色桌子旁，工作室墙面采用蓝白相间的隔音板。左边的男士身穿深色休闲上衣，手捧咖啡杯。右边的女士戴着一副录音耳机，放在身旁。男士正在讲话，女士则在一旁聆听，偶尔点头致意。女士拿起黑色耳机。墙上挂着一台大型电视，展示着技术界面。这幅场景展现了在明亮的工作室环境中，配备专业视听设备的协作工作空间。

功能特点

多场景生成能力：支持单人 / 多人对话视频生成，还能实现卡通角色创作与唱歌场景模拟，满足多样化创作需求。

精准音视同步：基于音频输入实现唇形动作精准匹配，确保对话视频的真实感。

灵活输出规格：提供 480P 和 720P 分辨率选择，支持任意比例画面输出，适配不同显示场景。

高效长视频处理：可生成最长 15 秒的视频，借助 APG 技术减少长视频色彩误差累积。

性能优化技术：集成 Multi-GPU 推理、TeaCache 加速（提速 2-3 倍）和低 VRAM 推理等技术，提升运算效率。

交互控制功能：通过提示词可直接操控虚拟人互动行为，增强创作灵活性。

项目链接

https://github.com/MeiGen-AI/MultiTalk

关注「开源AI项目落地」公众号

（文：开源AI项目落地）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

发表评论取消回复