音频条件潜在扩散模型归档 - 每时AI

头条开源了LatentSync：用于口型同步的音频条件潜在扩散模型

上午8时 2025/01/07 作者 NLP工程化

提出了一种基于音频条件潜在扩散模型的端到端口型同步框架LatentSync，无需中间运动表示，并通过时间表示对齐 (TREPA) 提高了时间一致性。