现实世界版的 Genie-2?
-
论文标题:Navigation World Models -
论文地址:https://arxiv.org/pdf/2412.03572v1 -
项目地址:https://www.amirbar.net/nwm/
-
提出了导航世界模型和一种全新的条件扩散 Transformer(CDiT);相比于标准 DiT,其能高效地扩展到 1B 参数,同时计算需求还小得多。 -
使用来自不同机器人智能体的视频和导航动作对 CDiT 进行了训练,通过独立地或与外部导航策略一起模拟导航规划而实现规划,从而取得了当前最先进的视觉导航性能。 -
通过在 Ego4D 等无动作和无奖励的视频数据上训练 NWM,使其能在未曾见过的环境中取得更好的视频预测和生成性能。
(文:机器之心)