英伟达发布了一款名为Cosmos的世界基础模型(World Foundation Model),它能理解和模拟物理世界。比如,理解重力、摩擦、惯性、几何和空间等基本物理概念。光是训练它的这种能力,英伟达就用了2000万小时的视频数据。此外,Cosmos模型不但能接受文本和图像提示,还能接受视频输入。技术上,Cosmos结合了多种模型架构:
• 自回归模型(Autoregressive Models),用于序列预测;
• 扩散模型(Diffusion Models),用于高质量数据生成;
• 分词器(Tokenizers),帮助处理和理解输入内容。
令人激动的是,目前Cosmos已在GitHub开放,供开发者自由使用,甚至是商用。未来,Cosmos模型有望在机器人、工业自动化、数字人和合成数据等领域产生深远影响。
参考文献:
[1] https://github.com/NVIDIA/Cosmos
(文:NLP工程化)