千帧长视频时代到来!MIT全新扩散算法让任意模型突破时长极限
MIT团队提出的新算法Diffusion Forcing Transformer(DFoT)让视频扩散模型生成了比之前长近50倍、上千帧的长视频,论文介绍了历史引导算法及其在不同数据集上的效果。
MIT团队提出的新算法Diffusion Forcing Transformer(DFoT)让视频扩散模型生成了比之前长近50倍、上千帧的长视频,论文介绍了历史引导算法及其在不同数据集上的效果。
复旦团队发表综述论文《A Survey on Video Diffusion Models》,系统梳理扩散模型在视频生成、编辑及理解领域的进展,涵盖300+文献。
AI视频生成模型通义万相2.1成功制作出多个复杂汉字、英文单词以及包括‘摸鱼一天 快乐无边’、中世纪真人写实风动画等在内的多种风格的视频内容。通过采用VAE与DiT架构协同发力、超长序列训练上的突破和数据与评估双轮驱动的技术创新,实现了对无限长1080P视频的高效编解码,并在视觉质量和运动质量方面提升模型性能。