极市导读
STIV模型的核心创新在于使用未加噪声的图像条件隐空间替换带噪声的隐空间,并引入联合图像-文本条件的无分类器引导(CFG)。实验结果显示,STIV在多个视频生成任务中取得了优异的性能,超越了包括CogVideoX-5B、Pika、Kling和Gen-3在内的一系列领先的开源和闭源模型。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
论文链接: https://arxiv.org/abs/2412.07730
HuggingFace链接: https://huggingface.co/papers/2412.07730
亮点直击
-
提出了STIV,一个能够同时执行文本到视频(T2V)和文本-图像到视频(TI2V)任务的单一模型。其核心思想是用未加噪声的图像条件隐空间替换带噪声的隐空间,并引入联合图像-文本条件的无分类器引导(CFG)。 -
进行了 T2I、T2V 和 TI2V 的系统研究,涵盖了模型架构、高效稳定的训练技术和渐进式训练方案,以便在模型规模、空间分辨率和时长上进行扩展。 -
这些设计特性使得该模型易于训练,并能适应各种任务,包括视频预测、帧插值和长视频生成等。 -
实验包括对不同设计选择和超参数的详细消融研究,评估了在 VBench、VBench-I2V 和 MSRVTT 上的表现。结果表明,与一系列开源和闭源SOTA视频生成模型相比,所提模型在性能上具有优势。 -
8.7B 参数的模型在 512×512 分辨率下,在 VBench T2V 任务上取得了 83.1 的成绩,超越了包括 CogVideoX-5B、Pika、Kling 和 Gen-3 等领先的开源和闭源模型。在 VBench I2V 任务上取得了90.1的SOTA成绩。
动机
视频生成领域随着基于扩散Transformer(Diffusion Transformer, DiT)架构的视频生成模型 Sora的提出,取得了显著进展。研究人员一直积极探索如何将文本和其他条件有效地融入到 DiT 架构中。例如,PixArt-α利用交叉注意力,而 SD3 将文本与带噪声的图像块拼接,并使用 MMDiT 块应用自注意力。许多视频生成模型 [21, 46, 65] 采用类似的方法,在文本到视频(T2V)任务中取得了重要进展。然而,纯 T2V 方法常常难以生成连贯且逼真的视频,因为其输出没有基于外部参考或上下文约束。为了解决这一问题,文本-图像到视频(TI2V)方法引入了初始图像帧和文本提示,为生成的视频提供了更为具体的基础。尽管视频生成取得了实质性进展,但要实现像 Sora 那样的 T2V 和 TI2V 性能仍然具有挑战性。一个主要的挑战是如何将基于图像的条件无缝整合到 DiT 架构中,这要求采用创新的技术,能够平滑地将视觉输入与文本提示结合。同时,对于稳定、高效的大规模训练策略的需求日益迫切,也需要提高训练数据集的整体质量。为了解决这些问题,一种全面、分步骤的“方案”将大大有助于开发一个统一的模型框架,能够同时处理 T2V 和 TI2V 任务。克服这些挑战对推进该领域的发展,并充分实现视频生成模型的潜力至关重要。尽管已有一些研究 [2, 6, 11, 14, 49, 62, 70] 探讨了将图像条件集成到 U-Net 架构中的方法,但如何将这些条件有效地融入 DiT 架构仍未解决。此外,现有的视频生成研究往往集中在单一方面,忽略了它们对整体性能的集体影响。例如,虽然像 QK-norm这样的稳定性技巧已经被提出,但它们在模型规模增大时效果不足,而且没有现有方法成功地在单一模型中统一 T2V 和 TI2V 能力。这种缺乏系统性、整体性研究的情况限制了更高效、更多样化的视频生成解决方案的进展。
提出的方案
在本研究中,首先对模型架构和训练策略进行全面研究,为 T2V 任务建立稳健的基础。分析揭示了三个关键见解:
-
稳定性技术如 QK-norm 和 sandwich-norm对有效扩展大型视频生成模型至关重要; -
采用因式分解的时空注意力、MaskDiT和切换到 AdaFactor显著提高了训练效率,并在性能损失最小的情况下减少了内存使用; -
渐进式训练,即将空间和时间层从不同模型初始化,优于在相同计算约束下使用单一模型。
以 PixArt-α 为基准架构,我们通过这些稳定性和效率措施解决了扩展挑战,并通过 Flow Matching、RoPE和微条件进一步提高了性能。结果,我们的最大 T2V 模型(8.7B 参数)达到了最新的语义对齐,并在 VBench 上获得了 83.1 的分数。
随后,我们确定了在 T2V 设置中建立的最佳模型架构和超参数,并将其应用于 TI2V 任务。我们的结果表明,仅仅用未加噪声的图像条件隐空间替换第一个带噪声的隐空间,就能取得良好的性能。尽管 ConsistI2V [49] 在 U-Net 设置中提出了类似的思路,但它要求每帧进行空间自注意力,并使用基于窗口的时间自注意力来达到我们的质量。相比之下,DiT 架构天然地通过堆叠的时空注意力层传播图像条件的第一帧,从而避免了这些额外操作。然而,随着空间分辨率的扩展,我们观察到模型产生了缓慢或几乎静止的运动。为了解决这个问题,我们在训练过程中引入了图像条件的随机丢弃,并在推理过程中应用联合图像-文本条件无分类器引导(JIT-CFG)。这一策略解决了运动问题,并使得单一模型能够在 T2V 和 TI2V 任务中都表现优异。
通过这些改进,最终完成了模型,并将其规模从600M 扩展到 8.7B 参数。最佳STIV 模型在 512²分辨率下,在 VBench I2V 任务中达到了 90.1 的最新成绩。除了提升视频生成质量外,还展示了将我们的框架扩展到各种下游应用的潜力,包括视频预测、帧插值、多视角生成和长视频生成等。这些结果验证了我们方法的可扩展性和多样性,展示了其解决不同视频生成挑战的能力。
STIV的基础
基础模型架构
STIV 模型基于 PixArt-α,该模型将输入帧转换为空间和时间隐空间嵌入,使用冻结的变分自编码器(VAE)。这些嵌入随后通过一组可学习的 DiT 类块进行处理。采用 T5 分词器和内部训练的CLIP文本编码器来处理文本提示。整体框架如图3 所示。
其他重要的架构改动如下所述。
空间-时间注意力我们采用因式分解的空间-时间注意力来处理视频帧。我们首先将时间维度折叠到批次维度上,然后对空间标记进行空间自注意力。接着,我们将输出重新排列并将空间维度折叠到批次维度上,以便对时间标记进行时间自注意力。通过使用因式分解的空间-时间注意力,我们可以轻松地从一个文本到图像(T2I)模型中预加载权重,因为图像是视频的特例,只有一个时间标记,只需空间注意力即可。
单例条件使用原始图像分辨率、裁剪坐标、采样步幅和帧数作为微条件,用于编码训练数据的元信息。我们首先使用正弦嵌入层来编码这些属性,然后通过一个多层感知机(MLP)将其投影到一个 d 维的嵌入空间。这些微条件嵌入与扩散时间步嵌入以及 CLIP 模型最后一层的最后一个文本标记嵌入一起加和,形成一个单例条件。我们还对每个单例嵌入应用无状态层归一化,然后将它们加在一起。这个单例条件用于生成共享的尺度-平移-门控参数,这些参数会在每个 Transformer 层的空间注意力和前馈层中使用。
旋转位置嵌入使用旋转位置嵌入(RoPE)[56],使得模型在处理相对时间和空间关系时具有较强的归纳偏差。此外,RoPE 可以与高计算应用中使用的掩码方法兼容,并且对分辨率变化具有高度适应性 [76]。我们在因式分解的空间-时间注意力中的空间注意力部分应用 2D RoPE [39],而在时间注意力中应用 1D RoPE。
流匹配没有采用传统的扩散损失,而是选择了流匹配(Flow Matching)训练目标。该目标定义了从源分布和目标分布中分别抽取的两个样本之间的条件最优传输。在我们的案例中,我们假设源分布为高斯分布,并使用线性插值来实现这一点。
训练目标被公式化为:
其中的速度向量场 。
在推理时, 我们求解对应的逆向时间 SDE, 从时间步 0 到 1 , 生成从随机采样的高斯噪声 中得到的图像。
模型扩展
随着模型规模的扩大,我们遇到了训练不稳定和基础设施挑战,尤其是在将更大的模型加载到内存中的问题。本节概述了稳定训练和提高训练效率的方法。
稳定训练方案我们发现 QK-Norm —— 在计算注意力对数之前,对查询(query)和键(key)向量应用 RMSNorm —— 显著地稳定了训练。这一发现与 SD3 中报告的结果一致。此外,我们将 MHA 和 FFN 中的pre-norm改为sandwich-norm,即在 STIV 块内的每一层加入前归一化和后归一化,并使用无状态层归一化。
高效 DiT 训练我们遵循 MaskDiT的做法,在将空间标记输入主要 DiT 块之前,随机遮掩 50% 的空间token。去除遮掩后,添加了两个额外的 DiT 块。还将 AdamW 优化器更换为 AdaFactor,并使用梯度检查点(gradient checkpointing)来仅存储自注意力输出。这些修改显著提高了效率,并减少了内存消耗,使得能够在更高分辨率和更长时长下训练更大的模型。
图像条件
帧替换
在训练过程中,将第一帧的带噪隐空间替换为图像条件的未加噪声隐空间,然后再将这些隐空间输入到 STIV 块中,并对替换帧的损失进行掩蔽。在推理过程中,使用原始图像条件的未加噪声隐空间作为每个 TI2V 扩散步骤中的第一帧。
帧替换策略为扩展 STIV 到各种应用提供了灵活性。例如,如果 ,则默认为文本到视频(T2V)生成。相反,如果 是初始帧,它就成为典型的文本-图像到视频(TI2V)生成。此外,如果提供多个帧作为 , 即使没有 , 它们也可以用于视频预测。此外, 提供第一帧和最后一帧作为 可以使模型学习帧插值,从而生成它们之间的帧。更进一步地,将 T2V 和帧插值结合起来,可以生成长时间的视频:T2V 生成关键帧,帧插值则生成每对连续关键帧之间的帧。最终,通过随机选择适当的条件策略,可以训练一个模型来执行所有任务。
图像条件丢弃
如前所述,帧替换策略为训练不同类型的模型提供了显著的灵活性。在此,我们展示了一个特定的应用场景,其中我们训练一个模型来同时执行 T2V 和 TI2V 任务。在这种情况下,我们在训练过程中随机丢弃 和 ,类似于 T2V 模型仅对文本条件进行随机丢弃的做法。
无分类器引导(CFG)是文本到图像生成中常用的技术,它通过将概率质量引导到给定条件下的高概率区域,显著提高了生成图像的质量。在此概念基础上,我们引入了联合图像-文本无分类器引导(JIT-CFG)方法,利用文本和图像条件进行引导。它修改了速度估计,如下公式所示,
其中𝑠是引导系数。当时,它退化为标准的 CFG,用于 T2V 生成。尽管可以引入两个独立的引导系数,如 [4] 中所做的那样,用于平衡图像和文本条件的强度,但我们发现我们的双重传递方法取得了较强的效果。此外,使用两个引导系数需要三次前向传播,增加了推理成本。
实证观察表明,结合 JIT-CFG 使用图像条件丢弃,不仅能够自然地实现多任务训练,而且还解决了 512² STIV 模型的过时问题。假设图像条件丢弃可以防止模型对图像条件的被动过拟合,使其能够更有效地捕捉来自底层视频训练数据的运动信息。
渐进式训练方案
我们采用了渐进式训练方案,如图 4 所示。该过程首先训练一个文本到图像(T2I)模型,该模型用于初始化文本到视频(T2V)模型。接下来,T2V 模型作为初始化 STIV 模型的起点。为了促进更高分辨率和更长时长训练的快速适应,我们在空间和时间维度中都加入了插值的 RoPE 嵌入,同时使用来自低分辨率、短时长模型的权重初始化模型权重。
STIV方案研究
基本设置
在深入研究视频生成模型的架构和数据之前,我们首先介绍训练、数据和评估设置。随后,我们将介绍模型和实验研究。
训练设置除非另有说明,否则使用 AdaFactor 优化器(β1 = 0.9,β2 = 0.999),并不使用权重衰减。如果梯度范数超过 1.0,会进行梯度范数裁剪。使用恒定学习率调度,采用 1k 步的线性预热,最大学习率为 2 × 10⁻⁴。对于 T2I 模型,训练每个模型 400k 步,批量大小为 4096。对于我们的内部 T2I 数据集,这大约是 1.4 个 epoch。对于 T2V 和 TI2V 模型,训练每个模型 400k 步,批量大小为 1024。这大约是 5.5 个 epoch。对于所有模型,我们使用指数移动平均权重,衰减率为 0.9999,并将其用于评估。当使用 MaskDiT 时,在前 400k 步中使用 50% 的空间随机遮掩。此后,我们进行未遮掩的微调,使用所有tokens。对于 T2I 模型,进行 50k 步的未遮掩微调,T2V 和 TI2V 模型则进行 100k 步微调。
数据构建了一个视频数据引擎pipeline,包括视频预处理、描述生成和过滤,用于加速处理大规模视频时的模型开发。具体来说,使用 PySceneDetect 来分析视频帧,检测并分割场景,基于突发过渡和渐变淡出进行分割。接着,进行特征提取以进行过滤,包括运动分数、美学分数、文本区域、帧维度、清晰度分数、时间一致性和视频方向等。对于每个视频片段,执行密集的描述生成和分类,以全面了解视频的分布情况。
为了进一步提高描述质量,我们改编了DSG并提出了DSG-Video,一种用于评估幻觉率和描述整体质量的度量标准。该数据引擎在过滤视频和为不同训练阶段准备定制数据集方面起着至关重要的作用:我们的数据来源包括 Panda-70M和我们内部制作的 4200 万个高质量视频数据集。通过数据引擎,制作了超过 9000 万个高质量的视频-描述对。
接下来,将深入进行更细粒度的调制研究。如图 5 所示,遵循从基本的 T2I 模型到时序感知的 T2V 模型,再到通过添加图像条件的 TI2V 模型的研究原则。
评估设置我们主要使用 VBench、VBench-I2V 和 MSRVTT来评估 T2V 和 TI2V 模型。对于 VBench,主要报告质量(时间质量和逐帧质量)、语义(与不同输入文本提示的语义对齐)和总分(质量和语义的加权平均),这些分数可以分解为 16 个维度。VBench-I2V 在 VBench 的基础上新增了三个视频-图像对齐度量:主题一致性、背景一致性和相机运动控制。这些额外的度量提供了一个更全面的评估,专注于生成的视频与输入图像和指定提示指令的对齐程度。关于这些维度的更多细节,请参见 F.1 节。
我们展示了三种模型规模:XL、XXL 和 M,其配置详细信息见表 1。以下章节中,使用符号 X-S-T 来表示一个 X 大小的模型,分辨率为 S²,帧数为 T。如果没有特别说明,默认配置为 256² 分辨率和 20 帧。
T2I 关键变化的消融研究
进行了一项全面的消融研究,以了解第 2 节中提到的各种模型架构设计和训练策略对文本到图像(T2I)生成任务的影响。为了评估生成质量,使用了一套流行的自动化指标,包括 FID 分数、Pick Score、CLIP Score、GenEval、DSGEval、人类偏好分数(HPSv2)和图像奖励。
从基础 T2I-XL 模型开始,这是一个基于 DiT的模型,增强了交叉注意力层以与文本嵌入进行集成。最初,应用了一系列稳定性技术,包括 QK-norm、三明治归一化和单例条件归一化,这些都使得结果与基线相当。值得注意的是,这些技术使能够在将学习率从 提高到 时仍能稳定训练。我们证明,在训练过程中加入流量匹配(Flow Matching)并在推理时采用 CFG 重新归一化(CFG-Renormalization)显著提高了所有指标。随后,探索了减少训练内存的技术,如 AdaFactor 优化器、MaskDiT 和共享 AdaLN,这些方法保持了相似的性能。使用微条件和 RoPE 进一步降低了 FID 分数,并提高了 DSGEval 和图像奖励。最后,加入内部训练的 bigG CLIP 模型使所有指标得到了进一步提升。值得注意的是,结合合成重caption与原始caption达到了几乎所有指标的最佳结果。
基于 T2I 消融研究中的最佳模型架构和训练超参数作为 T2V 和 TI2V 实验的起点。
T2V 关键设计的消融研究
关键调制根据 VBench 评估,在模型设计中做了一些选择,如图 6a 所示。基础模型使用 2 大小的时间路径、非因果时间注意力,并使用 0.5 的空间遮掩比例。如预期所示,使用时间路径大小为 1 的模型表现最好,但在 2 倍计算量下,性能仅略有提升。然而,使用时间路径大小为 4 的模型明显下降。使用因果时间注意力同样导致质量和总分的显著下降。向时间注意力层添加尺度-移位门(scale-shift-gate)虽然参数更多,但性能稍逊于基线。此外,移除空间遮掩会导致语义分数略微下降,但质量和总分有所提升。然而,这需要更多的计算,因为标记的长度增加了一倍。另一方面,使用时间遮掩显著降低了模型性能,VBench 质量和最终分数有较大下降。
模型初始化研究了初始化对 T2V-XL 模型性能的影响。在控制总 FLOP 设置的情况下,训练了 512² T2V 模型,并使用四种不同的路径进行初始化:从头开始、从低分辨率的 T2V-256 模型初始化、从 T2I-512 模型初始化,以及分别加载 T2V-256 和 T2I-512 模型的时间和空间权重(图 6b)。我们发现,从低分辨率的 T2V 模型和高分辨率的 T2I 模型共同初始化,可以实现更好的 VBench 指标。这种联合初始化方法与从头开始训练相比,略微提高了 FVD 值,并且在低分辨率模型已经存在的情况下,能够在实验效率和成本上带来优势。
在类似的方法下,还探索了训练更多帧(40 帧)的 T2V 模型,初始化时从较短的 T2V 模型(20 帧)开始。图 6c 显示,训练更多帧时,从低帧数模型初始化能够比直接从 T2I 模型初始化获得更好的指标。使用 RoPE 嵌入的插值方法相比于外推,能提高 VBench 分数。此外,还发现,从使用比例较低帧率(更大帧子采样步幅)训练的 T2V 模型初始化高帧数训练模型,能够改善 VBench 指标,尤其是运动平滑度和动态度。
TI2V关键设计的消融研究
为了将图像条件与文本条件结合起来, 我们将模型重新表述为 , 其中 和 分别是文本和图像条件。接下来, 研究了 TI2V 框架中的每个设计组件, 并解决了在训练高分辨率 T 12 V 模型时遇到的多任务学习和陈旧性问题。
帧替换的有效性
在 STIV-XL 模型上对 TI2V 进行了几个模型变体的消融实验,结合了以下关键组件:帧替换(FR)、交叉注意力(CA)、大投影(LP)和首帧损失(FFL)。如表 3 所示,值得注意的是,添加大映射层增强了交叉注意力传递的信息,从而提高了主题和背景一致性。然而,这种方法可能会过度限制模型,正如动态度得分的降低所示(FR + CA + LP 为 22.36,而 FR + CA 为 35.4),这表明模型可能对生成的输出施加了过度的控制。此外,虽然添加首帧损失看似有益,但它却导致了整体评分的下降,特别是在运动质量方面,表明这一损失可能无意中约束了模型的时间动态性。相比之下,仅使用帧替换已证明是一种稳健有效的方法,能够在不负面影响其他视频质量维度的情况下,持续提升模型性能。帧替换(FR)模型在 I2V 平均分(I2V 主题、I2V 背景和相机运动的平均分)和总平均分上取得了高分。这些结果强调了帧替换作为基础组件的优势,为在各个维度上保持质量提供了稳定的支撑。
图像条件丢弃的有效性
实验表明,图像条件丢弃结合 JIT-CFG 不仅支持多任务训练,还解决了 512² STIV 模型中的陈旧性问题。
多任务训练通过在 STIV 训练中使用图像条件丢弃,我们有效地实现了 T2V 和 TI2V 两种能力。如表 4 所示,仅针对 T2V 或 TI2V 任务进行训练的模型无法执行其他任务,而使用图像条件丢弃的 STIV 模型能够很好地处理这两个任务,且其性能与最好的单任务模型相当。
更强的运动表现在实际应用中,我们观察到,虽然 STIV-M-512 在 VBench-I2V 上表现良好,但有时会生成静态帧。VBench-I2V 指标倾向于偏好运动较少的视频,优先考虑视频的平滑性和一致性。如表 5 所示,结合 JIT-CFG 的 STIV 模型在动态度得分上表现更高,但以牺牲一致性和流畅度分数为代价。还展示了从图 14 到图 16 的视觉比较。
JIT-CFG 及其变体我们自然会考虑将传统的无分类器引导(CFG)扩展为一种三重加权方法,其中考虑三种条件模式:(1) 空条件:图像 和文本 条件均为空( )。(2)仅图像条件:图像条件为源图像,文本条件为空。(3)联合条件:同时提供图像和文本条件。速度估计的组合方式如下:
其中 和 分别是图像条件(CFG-I)和联合条件(CFG-T)的引导比例。称其为独立的图像和文本无分类器引导(SIT-CFG)。
使用 STIV-M-512-JIT 在 MSRVTT 测试集上进行实验,设置 在 JIT-CFG 中取得了 FVD 。同时, 对 STIV-M-512-JIT 进行了实验, 针对 和 进行了网格搜索, 搜索空间为
如图7所示,观察到:
-
固定CFG-T时,随着CFG-I的增加,FVD先减小然后增加; -
固定CFG-I时,随着CFG-T的增加,FVD持续减小,除非CFG-I非常小(1.1或1.5),在这种情况下,FVD先减小然后增加; -
最佳配置出现在CFG-T = 7.5和CFG-I = 1.5时,此时FVD为95.2。
然而,总体而言,SIT-CFG相比于JIT-CFG并没有显著的优势,且在推理时使用两个副本的效率明显较低。需要注意的是,这次搜索是针对MSRVTT优化的,对于其他需要更强依赖于第一帧主题的提示,可能需要更大的CFG-I值。
模型初始化
还研究了 TI2V 模型的初始化方法对性能的影响,包括从 T2I 或 T2V 开始初始化。使用相同的总步骤数来检查在 VBench-I2V 上的最终性能。从表 6 可以看出,从 T2V 模型初始化可以获得更好的相机运动得分和略微更好的动态度,且在其他维度上与从 T2I 初始化的性能相当。
视频数据引擎
数据质量对于视频生成模型至关重要。然而,由于噪声描述、幻觉和视频内容及时长的多样性有限,制作大规模高质量数据集仍然是一个挑战。为了解决这些问题,提出了一个视频数据引擎(见图 8)——一个全面的pipeline,用于改善数据集质量并减少幻觉,从而提升模型性能。
方法聚焦于三个关键问题:
-
如何预处理原始视频以提高一致性? -
数据过滤对模型性能有何影响? -
如何通过先进的视频描述生成减少幻觉并改善结果?
使用 Panda-70M作为工作示例,并通过我们的pipeline生成了一个整理过的子集 Panda-30M。
视频预处理与特征提取我们使用 PySceneDetect来去除突变过渡和不一致的片段,从而生成更连贯的剪辑。接着,提取关键特征(如运动和美学分数)来指导后续的过滤过程。
数据引擎与过滤有效的数据过滤对于提高数据集质量并减少幻觉至关重要。开发了一个自动化的过滤基础设施,支持高效的数据选择、质量控制和在模型开发生命周期中的持续改进。例如,可以根据预定义的分辨率/运动分数对视频进行抽样,以用于微调阶段。该过滤系统使我们能够系统地去除低质量视频,专注于提升模型性能的数据。从 Panda-30M 中,进一步基于运动分数和美学分数进行过滤,得到 Panda-10M,即 Panda-30M 的高质量版本。结果总结在表 7 中:与追求数据量不同,更高质量的视频能实现更有前景的结果。
视频描述模型高质量的视频-文本对对于训练文本到视频模型至关重要。现有的数据集常常存在噪声或无关的描述,且在描述时间动态方面有限。最初尝试了基于帧的描述生成方法,并通过大模型(LLM)进行总结,但发现单帧描述未能有效表现运动,而 LLM 总结则可能引发幻觉。为了提高描述质量并平衡成本,我们采用了 LLaVA-Hound-7B,这是一种视频大语言模型,能够生成更连贯和运动感知的描述。
描述评估与消融为了客观评估描述的准确性,引入了 DSG-Video(见图 9)模块,该模块借鉴了 DSG,通过用 LLM 生成的问题对描述进行探测,并使用多模态 LLM 验证样本视频帧中是否存在提到的物体,从而检测幻觉。该方法生成了两个指标:DSG-Videoi 和 DSG-Videos 7,分别反映了在物体级别和句子级别的幻觉。比较了两种描述生成策略——基于帧的加 LLM 总结(FCapLLM)和直接视频描述生成(VCap)——在 Panda-30M 数据集上的表现。如表 8 所示,VCap 减少了幻觉,并增加了描述物体的多样性,从而提升了 T2V 模型的表现。这些结果表明,丰富且更准确的视频描述能显著提升后续生成的质量。
结果
基于以上研究,将 T2V 和 STIV 模型的规模从 600M 扩展到 8.7B。在下面表 9 和表 10 中展示了主要结果,将我们的模型与最先进的开源和闭源模型进行了比较,证明了方法的有效性。具体而言,在预训练的视频生成模型(SFT)上进行微调,基于从 Panda-70M中筛选出的 20,000 个视频进行训练,如前面所述。由于在预训练阶段采用了 MaskDiT 技术,尝试以非遮掩方式(UnmaskSFT)对模型进行微调。还将 STIV 模型微调为时序上采样器,用于插值我们主要的 T2V 和 STIV 模型生成的视频,以提升运动平滑度(+TUP)。
T2V 性能首先展示了 T2V 模型作为 STIV 基础的有效性。表 9 展示了不同 T2V 模型变体在 VBench 上的比较,包括 VBench-质量、VBench-语义和 VBench-总分。我们的分析表明,随着模型参数的增加,T2V 模型在语义追踪能力上的表现得到了提升。具体而言,随着模型规模从 XL 到 XXL,再到 M,VBench-语义得分从 72.5 提升到 72.7,再到 74.8。这个明确的趋势(从 XL 到 XXL,再到 M)表明,较大的模型在捕捉语义信息方面更具优势。然而,对视频质量的影响较小,VBench-质量得分从 80.7 提升至 81.2,再到 82.1。这个发现表明,扩展模型对语义能力的提升影响更大,而对视频质量的提升较为有限。此外,将空间分辨率从 256 提升到 512 显著提升了 VBench-语义得分,从 74.8 提升到 77.0。详细结果请见表 11。
SFT 的影响此外,使用高质量的 SFT 数据对模型进行微调,显著提高了 VBench-质量得分,从 82.2 提升到 83.9。微调模型时不使用任何遮掩令牌略微提升了语义得分。我们的最佳模型达到了 79.5 的 VBench-语义得分,超越了 KLING、PIKA 和 Gen-3 等知名闭源模型。在使用时序上采样器后,我们的模型在所有其他模型中达到了最先进的质量得分。
TI2V 性能如前面表 10 所示,我们的模型在与最先进的方法的比较中表现出色。它还显示,虽然扩展模型规模能提高 I2V 得分,但对质量的影响有限。相比之下,增加分辨率对质量和 I2V 得分的提升更为显著。我们在表 12 中提供了各个维度的完整结果。
灵活应用
这部分展示了如何将STIV 扩展到各种应用,例如视频预测、帧插值、多视图生成和长视频生成。
视频预测从 STIV-XXL 模型初始化,训练一个基于前四帧的文本-视频到视频模型。正如下图 10a 所示,视频到视频模型(STIV-V2V)在 MSRVTT测试集和 MovieGen Bench上的 FVD 得分明显低于文本到视频模型(T2V)。这一结果表明,视频到视频模型能实现更优的表现,对于自动驾驶和具身 AI 等应用中要求高保真度和一致性的生成视频帧具有前景。
帧插值提出了 STIV-TUP,一个从 STIV-XL 模型初始化的时序上采样器,并继续进行训练,基于文本条件对连续帧进行采样(步长为 2)。图 10b 显示了可以在 MSRVTT 测试集上基于文本和图像条件进行不错的帧插值。观察到,使用文本条件在 FID 和 FVD 上略优于图像条件。还将时序上采样器与我们的主要模型级联,探索它是否能提升主要性能。正如前面表 9 和表 4 所示,使用时序上采样器能提高质量表现,同时保持其他得分。
多视图生成多视图生成是一个专注于从给定图像创建新视角的专门任务。这个任务要求视角一致性,并且可以从良好预训练的视频生成模型中大大受益。通过将视频生成模型适应于多视图生成,我们可以评估预训练是否有效地捕获了隐空间的 3D 信息,从而增强多视图生成。采用了 Zero123++中规定的新视角相机定义,该定义为每个输入图像指定了六个新视角。我们的 TI2V 模型将初始帧设为给定图像,接下来六帧为预测的未来帧,表示新的视角。我们用 Objaverse数据集对 TI2V-XL 模型进行了 110k 步微调,训练时将分辨率提升至 320,与 Zero123++ 保持一致。我们的评估使用来自 Google 扫描物体数据集的对象,与地面真值渲染进行比较。如前图 10c 所示,尽管只使用时序注意力来确保跨视角的一致性,我们的方法与 Zero123++ 达到了相当的表现。这一结果验证了我们的时空注意力在保持 3D 一致性方面的有效性。和Zero123++之间的视觉比较如下图11所示
长视频生成提出了一种有效且高效的框架来生成长视频。具体而言,我们提出了一个分层框架,包括训练 STIV 模型的两种不同模式:(1)通过学习均匀采样的视频帧(步长为 20)进行关键帧预测,并进行图像条件丢弃;(2)通过学习连续视频帧,并将第一帧和最后一帧作为图像条件来生成插值帧。在采样阶段,我们变化图像和微条件,先使用第一种模式生成关键帧,然后使用第二种模式生成插值帧,从而生成长视频。在生成视频时,传统的自回归方法容易受到误差传播的影响,且缺乏全局一致性。因此,我们提出了一种简单而有效的基准,完全基于我们的 STIV 框架。正如主文中所述,我们设计了一个分层框架,训练 STIV 的两种模式,分别生成关键帧和插值帧,最终生成长视频。在图 12 中展示了一个长 T2V 和 TI2V 示例,共生成了 380 帧视频((20 −1) ×20 = 380)。
相关工作
文本到视频生成近年来,基于扩散的方法已成为文本到视频生成的主流方法,涵盖了闭源模型 [42, 44, 46] 和开源模型。一些研究[6, 7, 27]利用隐空间扩散模型(LDMs)提高训练效率。VideoLDM将时序卷积和注意力机制集成到 LDM U-Net 中,用于视频生成。最近,模型架构逐步从 U-Net 转向基于扩散Transformer的架构[21, 46, 66, 75]。CogVideoX采用了 SD3的框架,通过自注意力机制对整个 3D 视频序列进行处理,并结合文本条件。Lumina-T2X采用零初始化注意力,将噪声转换为不同模态。与以往的模型相比,重点是通过空间、时间和跨模态注意力机制,利用多种技术将基于扩散Transformer的视频生成模型扩展到超过 8B 参数,并在 VBench 上取得了良好表现,成为我们文本-图像到视频模型 STIV 开发的强大基线。
文本-图像到视频生成仅通过文本控制视频内容面临重大挑战,尤其是在实现视频与输入文本之间的对齐以及对视频生成过程的精细控制方面。为了解决这一问题,近期的方法整合了第一帧和文本,以增强视频生成的控制力[6, 24, 49, 62, 70],大多基于 U-Net 架构。I2VGen-XL基于 SDXL 并采用级联技术生成高分辨率视频。DynamiCrafter和 VideoCrafter使用跨模态注意力来结合图像条件。ConsistentI2V采用类似的帧替换策略,但还需要对初始帧进行时空注意力,并通过特殊噪声初始化来增强一致性。Animate Anything也采用帧替换技术,但需要使用运动强度损失来增强运动效果。然而,它们在 VBench-I2V 上的动态度较低,仅为 2.7%。在 DiT 架构上应用了帧替换技术,并结合我们提出的图像条件丢弃方法,JIT-CFG 可以生成高质量的 I2V 视频,同时有效解决了运动滞后的问题。
结论
总之,我们进行了全面的研究,探讨如何构建一个良好的视频生成模型,并提出了一种可扩展且灵活的方法,将文本和图像条件整合到一个统一的视频生成框架中。我们的模型不仅在公共基准测试中表现出色,还在下游应用中展现出多样性,支持可控的视频生成、视频预测、帧插值、长视频生成和多视图生成,这些都突显了它作为广泛研究基础的潜力。
参考文献
[1] STIV: Scalable Text and Image Conditioned Video Generation
(文:极市干货)