Cosmos：专为物理AI设计的世界基础模型平台

下午11时 2025/01/08 作者 NLP工程化

Cosmos：专为物理AI设计的世界基础模型平台，它提供了以下几个关键特性：

预训练的基于扩散的世界基础模型，支持基于文本和视频的视觉模拟生成。
预训练的基于自回归的世界基础模型，用于基于视频的视觉模拟生成，可选择性地包括文本提示。
高效有效的视频分词器，用于将视频转换为连续和离散的令牌。
后训练脚本，用于针对不同的物理AI设置调整预训练的世界基础模型。
即将推出的视频策划流程，用于构建自己的视频数据集。
训练脚本，用于构建自己的世界基础模型，支持扩散和自回归模型。

Cosmos 提供了多个模型家族，包括不同参数规模的扩散和自回归模型，用于文本到视觉世界生成和视频到视觉世界生成。这些模型可以通过Hugging Face获得，并且可以在NVIDIA的Nemo框架下进行训练和微调。

参考文献：
[1] https://github.com/NVIDIA/Cosmos

（文：NLP工程化）

发表评论取消回复