Cosmos:专为物理AI设计的世界基础模型平台

Cosmos:专为物理AI设计的世界基础模型平台,它提供了以下几个关键特性:

  • 预训练的基于扩散的世界基础模型,支持基于文本和视频的视觉模拟生成。
  • 预训练的基于自回归的世界基础模型,用于基于视频的视觉模拟生成,可选择性地包括文本提示。
  • 高效有效的视频分词器,用于将视频转换为连续和离散的令牌。
  • 后训练脚本,用于针对不同的物理AI设置调整预训练的世界基础模型。
  • 即将推出的视频策划流程,用于构建自己的视频数据集。
  • 训练脚本,用于构建自己的世界基础模型,支持扩散和自回归模型。

Cosmos 提供了多个模型家族,包括不同参数规模的扩散和自回归模型,用于文本到视觉世界生成和视频到视觉世界生成。这些模型可以通过Hugging Face获得,并且可以在NVIDIA的Nemo框架下进行训练和微调。

参考文献:
[1] https://github.com/NVIDIA/Cosmos


(文:NLP工程化)

欢迎分享

发表评论