
新智元报道
新智元报道
【新智元导读】Nvidia刚刚发布了「世界生成」模型Cosmos-Transfer1,可以根据多种模态的空间控制输入(如分割、深度和边缘)生成世界模拟,使得世界生成具有高度可控性。开发者使用模型能够创建高度逼真的模拟环境,用于训练机器人和自动驾驶车辆。

Cosmos-Transfer1,是一种自适应多模态世界生成模型。可以根据多种模态的空间控制输入(如分割、深度和边缘)生成真实世界模拟。

注意!右边的场景并非「真实场景」,而通过HD Map高清地图和Lidar雷达图实时「生成」的!
这种生成能力给未来数字世界带来太多想象力和可能性!
也有望解决物理AI开发中的一个长期挑战:缩小模拟训练环境与实际应用之间的差距。
Cosmos Transfer强大的「世界生成」能力

通过Cosmos Transfer来提升模拟数据的真实性和多样性。

Cosmos Transfer不仅可以通过单一模态控制生成,也允许在不同的空间位置对不同的条件输入进行不同的加权。
单一模态控制生成
Cosmos Transfer通过单一模态可以生成逼真的现实场景。
下图展示了通过输入Edge边缘图、Depth深度图、Segmentation分块图来生成诸如自行车维修车间、自动驾驶场景和真实机械臂场景。

多模态控制生成

一种输入,多种可能


风格变换



「世界生成器」Cosmos Transfer1技术路线
Cosmos-Transfer1是一个具有自适应多模态控制的世界生成器。它包含多个控制分支,用于从不同的模态输入(如分割、深度和边缘)中提取控制信息。
应用时空控制图w={w1,w2,…,wN}来加权由控制分支计算出的输出,然后再将其反馈到主生成分支。
时空控制图使模型能够利用不同区域中最相关的模态以获得最佳输出质量。
Cosmos-Transfer1训练成果展示
使用1024个NVIDIA H100 GPU对每个控制分支进行2到4周的训练,具体时间取决于模态。
以上展示使用相同提示在各个单独模态(Vis、Edge、Depth、Seg)设置下,Cosmos-Transfer1-7B的生成视频效果。
-
Cosmos-Transfer1-7B [Vis] 在保持颜色和整体构图的同时,改变了纹理细节。 -
Cosmos-Transfer1-7B [Edge]在改变颜色的同时保持了物体边界。 -
Cosmos-Transfer1-7B [Depth]保持了场景几何结构。 -
Cosmos-Transfer1-7B [Seg]保持了场景语义。
Cosmos-Transfer1-7B-Sample-AV是特别为自动驾驶设计的模型。

-
Cosmos-Transfer1-7B-Sample-AV [HDMap] 保留了驾驶场景的原始道路布局。 -
Cosmos-Transfer1-7B-Sample-AV [LiDAR] 保留了输入的语义细节。
最后,Nvidia还训练了一个Upscale ControlNet,将生成的视频从 720p 提升到 4k 分辨率。

效果评估
为了评估Cosmos-Transfer1的特性,Nvidia精心策划了TransferBench——一个包含600个示例的评估数据集。



Nivdia Cosmos平台
-
预训练模型(可通过Hugging Face获取),这些模型在 NVIDIA 开放模型许可下允许免费商业使用。 -
在Apache 2许可下的训练脚本,用于对各种下游物理 AI 应用的模型进行后训练。
Cosmos-Transfer1模型可通过Hugging Face获取。
(文:新智元)