Cosmos:专为物理AI设计的世界基础模型平台,它提供了以下几个关键特性:
-
预训练的基于扩散的世界基础模型,支持基于文本和视频的视觉模拟生成。 -
预训练的基于自回归的世界基础模型,用于基于视频的视觉模拟生成,可选择性地包括文本提示。 -
高效有效的视频分词器,用于将视频转换为连续和离散的令牌。 -
后训练脚本,用于针对不同的物理AI设置调整预训练的世界基础模型。 -
即将推出的视频策划流程,用于构建自己的视频数据集。 -
训练脚本,用于构建自己的世界基础模型,支持扩散和自回归模型。
Cosmos 提供了多个模型家族,包括不同参数规模的扩散和自回归模型,用于文本到视觉世界生成和视频到视觉世界生成。这些模型可以通过Hugging Face获得,并且可以在NVIDIA的Nemo框架下进行训练和微调。
参考文献:
[1] https://github.com/NVIDIA/Cosmos
(文:NLP工程化)