首个开源AI音频驱动的「多人对话」视频生成项目,还能通过提示词控制角色动作。

MultiTalk 是 MeiGen-AI 开发的音频驱动多人对话视频生成框架,支持单人/多人对话、卡通角色生成和唱歌场景模拟。具备480p/720p灵活输出能力,最长15秒长视频生成能力,并引入优化技术提高性能。

数据减少超千倍,500 美金就可训练一流视频模型,港城、华为Pusa来了

FVDM & Pusa 提出了一种新的视频扩散模型 (FVDM),通过引入向量化时间步变量 (VTV) 解决了传统视频生成的局限性。Pusa 项目利用非破坏性微调方法将预训练模型成本降低了数倍,展示了低成本、高灵活视频生成的新时代。