英伟达视频模型Magic 1-For-1,1 分钟生成 1 分钟视频,且开源

作者子川

来源AI先锋官

开源的风终于吹到了AI视频生成领域。
近日,英伟达联合北京大学和 Hedra Inc三方联合开源了一款全新的AI视频生成模型 Magic 1-For-1,其主要特点就是“生成速度超快”。
Magic 1-For-1 的核心优势在于高效的视频生成能力,生成速度与视频时长几乎1:1,5秒视频3秒完成,1分钟视频仅需1分钟。
这也意味着无论是短视频创作者还是需要快速生成大量视频素材的团队,Magic 1-For-1 都能轻松满足需求。
最重要的是Magic 1-For-1开源了,并且它通过量化技术将模型体积从32GB压缩至16GB,在RTX 4090等消费级显卡就可以跑。

论文名:Magic 1-For-1: Generating One Minute Video Clips within One Minute

论文链接:https://arxiv.org/pdf/2502.07701

开源代码:https://magic-141.github.io/Magic-141/
其技术的核心思想很简单:将文本到视频的生成任务分解为两个相对简单的任务,用于扩散步骤蒸馏,即文本到图像生成和图像到视频生成。
话不多说,接下来就带大家欣赏一下的Magic 1-For-1大作~

Magic 1-For-1在描绘人物运动时能做到符合真实的运动规律,即使是复杂动作也能很好的刻画。

比如下面这个视频,就完美的还原了小丑的名场面,从肢体动作到面部表情的细微变化,每一个动作都符合小丑的性格特点,一点都分辨不出它是AI生成的。

还有人物说话的画面,不仅动作、神态十分逼真,甚至在口型的匹配上也做到了几乎完美的还原,看起来毫无违和感。

除了运动,Magic 1-For-1还能模拟真实物理世界特性,生成的视频更符合物理规律。

比如两朵缓慢绽放的花,从花瓣的轻轻舒展到花蕊的逐渐露出,每一个细节都符合自然界的生长规律。

此外,Magic 1-For-1支持生成不同风格的视频,比如动画风格的视频。

就像下面这样。

它能够完美地捕捉动画特有的风格特点,生成小猫可爱的外观——比如圆滚滚的眼睛、柔软的毛发等。

对于拟人化的场景,Magic 1-For-1也是信手拈来,比如这只熊猫坐在湖边弹吉他。

说完优点,下面我们来谈谈缺点。
Magic 1-For-1 虽然在很多方面表现不错,但在处理高速运动场景时却有点差强人意了,比如下面士兵射击画面时,子弹出膛瞬间的捕捉不够精准,大家只能看到枪口的红光闪烁,甚至还出现红光弯曲的现象
还有这个汽车的视频,溅起的水花效果显得有些粗糙,给人一种廉价的“五毛特效”感。

而且在视频质量方面,Magic 1-For-1 仅支持 540×960 的分辨率,在目前1080p遍地走,电影级画质多如狗的视频生成领域,多多少少逊色了些,但它开源了~~

最后给大家趴一下Magic 1-For-1都运用了哪些独特的技术?

任务分解与扩散步骤蒸馏

Magic 1-For-1 把复杂的“文字变视频”任务拆成了两个简单任务:先从文字生成一张图片,再从这张图片生成视频。这样不仅让生成过程更简单,还减少了计算步骤。实验发现,从图片生成视频比直接从文字生成视频更容易,速度也更快。

多模态输入与语义对齐

该模型引入了多模态输入机制,不仅用文字,还结合了图片来生成视频来增强模型的语义理解和生成能力模,具体来说就是会把文字和图片的信息结合起来,更好地理解要生成的内容,从而生成更符合描述的视频。这种结合方式不仅让模型学得更快,还提升了生成视频的质量。

扩散步骤蒸馏技术

为了让生成速度更快,Magic 1-For-1 用了一种叫“扩散步骤蒸馏”的技术。简单来说,就是训练一个“少步骤”的生成器来模仿“多步骤”生成器的结果。这样,模型只需要 4步 就能生成高质量的视频,而传统方法可能需要几十步甚至上百步。这大大减少了计算成本,同时保持了视频质量。

模型量化与内存优化

Magic 1-For-1 通过一种叫“量化”的技术,把模型的体积从 32GB 压缩到 16GB,减少了内存占用。这样,模型不仅能在高性能计算设备上运行,还能在普通的消费级显卡(比如 RTX 5090、A10 和 L20)上高效运行。

滑动窗口技术

生成长视频时Magic 1-For-1 使用滑动窗口技术逐步生成视频片段, 会把视频分成一个个小片段,逐步生成。这种方法不仅保持了生成的高效性,还让整个视频看起来更连贯、质量更高。通过这种技术,模型可以在 一分钟内生成一分钟的视频。

随着开源的力量涌入AI视频生成领域,期待不久AI视频生成领域也会有自己的Deepseek。

 

(文:AI先锋官)

欢迎分享

发表评论