英伟达 Cosmos 模型的细节

本文主要介绍了英伟达 Cosmos 模型的细节,包括模型版本、模型架构、工程实现、推理速度(单GPU)、数据集:Cosmos使用专有和公开的视频数据集进行训练。具体细节,详见参考文献[1][2]。

一.模型版本

Cosmos-1.0-Diffusion-7B-Text2World:根据文字描述,预测 121 帧视频的输出结果。
Cosmos-1.0-Diffusion-14B-Text2World:根据文字描述,预测 121 帧视频的输出结果。
Cosmos-1.0-Diffusion-7B-Video2World:给定文字描述和第一帧图像,预测未来 120 帧图像。
Cosmos-1.0-Diffusion-14B-Video2World:给定文字描述和第一帧图像,预测未来 120 帧图像。

二.模型架构

三.工程实现

目前包含四种主要类型的模型:NeMo Curator、Cosmos Tokenizer、Cosmos Guardrail 和 Cosmos World Foundation Model(后简称 Cosmos WFM)。

  • NeMo Curator 是一个视频编辑管道,它获取原始视频帧,将其分割成有意义的片段,并用语义标签、对象标签和场景描述对其进行注释。
  • 然后将注释过的图像输入 Cosmos Tokenizer,生成 token 序列。这一步骤降低了数据维度,使 Cosmos WFM 能够有效处理大型或复杂的训练输入。
  • 然后, Cosmos WFM 将使用经过编辑/注释的视频片段,并从真实世界的数据中学习底层物理和视觉动态。
  • 当被查询时,Cosmos WFM 会输出新的 token 序列,然后将其解码为高分辨率和物理逼真的合成视频。
  • Cosmos WFM 在大规模视频数据集上进行预训练,让它们接触广泛的视觉体验,使它们成为通才。
  • 为了构建专门的 WFM,开发人员需要使用从特定使用案例中收集的额外数据对 Cosmos WFM 进行微调。这些额外的数据将有助于调整 Cosmos WFM,使其适应预定的使用案例,确保其在真实世界的条件下发挥最佳性能。

四.推理速度(单GPU)

五.数据集:Cosmos使用专有和公开的视频数据集进行训练

数据包括:驾驶(11%)、手部运动和物体操作(16%)、人体运动和活动(10%)、空间意识和导航(16%)、第一人称视角(8%)、自然动态(20%)、摄像机动态移动(8%)、合成渲染(4%)、其他 (7%)

参考文献:
[1] 官网:https://build.nvidia.com/nvidia/cosmos-1_0-diffusion-7b
[2] 论文:https://d1qx31qr3h6wln.cloudfront.net/publications/NVIDIA%20Cosmos_2.pdf


(文:NLP工程化)

欢迎分享

发表评论