英伟达 Cosmos 模型的细节

本文主要介绍了英伟达 Cosmos 模型的细节，包括模型版本、模型架构、工程实现、推理速度（单GPU）、数据集：Cosmos使用专有和公开的视频数据集进行训练。具体细节，详见参考文献[1][2]。

一.模型版本

Cosmos-1.0-Diffusion-7B-Text2World：根据文字描述，预测 121 帧视频的输出结果。
Cosmos-1.0-Diffusion-14B-Text2World：根据文字描述，预测 121 帧视频的输出结果。
Cosmos-1.0-Diffusion-7B-Video2World：给定文字描述和第一帧图像，预测未来 120 帧图像。
Cosmos-1.0-Diffusion-14B-Video2World：给定文字描述和第一帧图像，预测未来 120 帧图像。

二.模型架构

三.工程实现

目前包含四种主要类型的模型：NeMo Curator、Cosmos Tokenizer、Cosmos Guardrail 和 Cosmos World Foundation Model（后简称 Cosmos WFM）。

NeMo Curator 是一个视频编辑管道，它获取原始视频帧，将其分割成有意义的片段，并用语义标签、对象标签和场景描述对其进行注释。
然后将注释过的图像输入 Cosmos Tokenizer，生成 token 序列。这一步骤降低了数据维度，使 Cosmos WFM 能够有效处理大型或复杂的训练输入。
然后， Cosmos WFM 将使用经过编辑/注释的视频片段，并从真实世界的数据中学习底层物理和视觉动态。
当被查询时，Cosmos WFM 会输出新的 token 序列，然后将其解码为高分辨率和物理逼真的合成视频。
Cosmos WFM 在大规模视频数据集上进行预训练，让它们接触广泛的视觉体验，使它们成为通才。
为了构建专门的 WFM，开发人员需要使用从特定使用案例中收集的额外数据对 Cosmos WFM 进行微调。这些额外的数据将有助于调整 Cosmos WFM，使其适应预定的使用案例，确保其在真实世界的条件下发挥最佳性能。

四.推理速度（单GPU）

五.数据集：Cosmos使用专有和公开的视频数据集进行训练

数据包括：驾驶（11%）、手部运动和物体操作（16%）、人体运动和活动（10%）、空间意识和导航（16%）、第一人称视角（8%）、自然动态（20%）、摄像机动态移动（8%）、合成渲染（4%）、其他 (7%)

参考文献：
[1] 官网：https://build.nvidia.com/nvidia/cosmos-1_0-diffusion-7b
[2] 论文：https://d1qx31qr3h6wln.cloudfront.net/publications/NVIDIA%20Cosmos_2.pdf

（文：NLP工程化）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

一.模型版本

二.模型架构

三.工程实现

四.推理速度（单GPU）

五.数据集：Cosmos使用专有和公开的视频数据集进行训练

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复