
作者|子川
来源|AI先锋官
论文名:Magic 1-For-1: Generating One Minute Video Clips within One Minute
论文链接:https://arxiv.org/pdf/2502.07701
Magic 1-For-1在描绘人物运动时能做到符合真实的运动规律,即使是复杂动作也能很好的刻画。
比如下面这个视频,就完美的还原了小丑的名场面,从肢体动作到面部表情的细微变化,每一个动作都符合小丑的性格特点,一点都分辨不出它是AI生成的。
除了运动,Magic 1-For-1还能模拟真实物理世界特性,生成的视频更符合物理规律。
比如两朵缓慢绽放的花,从花瓣的轻轻舒展到花蕊的逐渐露出,每一个细节都符合自然界的生长规律。
此外,Magic 1-For-1支持生成不同风格的视频,比如动画风格的视频。
就像下面这样。
它能够完美地捕捉动画特有的风格特点,生成小猫可爱的外观——比如圆滚滚的眼睛、柔软的毛发等。
对于拟人化的场景,Magic 1-For-1也是信手拈来,比如这只熊猫坐在湖边弹吉他。
最后给大家趴一下Magic 1-For-1都运用了哪些独特的技术?
任务分解与扩散步骤蒸馏
多模态输入与语义对齐
该模型引入了多模态输入机制,不仅用文字,还结合了图片来生成视频来增强模型的语义理解和生成能力模,具体来说就是会把文字和图片的信息结合起来,更好地理解要生成的内容,从而生成更符合描述的视频。这种结合方式不仅让模型学得更快,还提升了生成视频的质量。
扩散步骤蒸馏技术
为了让生成速度更快,Magic 1-For-1 用了一种叫“扩散步骤蒸馏”的技术。简单来说,就是训练一个“少步骤”的生成器来模仿“多步骤”生成器的结果。这样,模型只需要 4步 就能生成高质量的视频,而传统方法可能需要几十步甚至上百步。这大大减少了计算成本,同时保持了视频质量。
模型量化与内存优化
Magic 1-For-1 通过一种叫“量化”的技术,把模型的体积从 32GB 压缩到 16GB,减少了内存占用。这样,模型不仅能在高性能计算设备上运行,还能在普通的消费级显卡(比如 RTX 5090、A10 和 L20)上高效运行。
滑动窗口技术
生成长视频时,Magic 1-For-1 使用滑动窗口技术逐步生成视频片段, 会把视频分成一个个小片段,逐步生成。这种方法不仅保持了生成的高效性,还让整个视频看起来更连贯、质量更高。通过这种技术,模型可以在 一分钟内生成一分钟的视频。
随着开源的力量涌入AI视频生成领域,期待不久AI视频生成领域也会有自己的Deepseek。
(文:AI先锋官)