作者|子川
来源|AI先锋官
继李飞飞World Labs后,又一世界模型新鲜出炉!
关联阅读:“一图一世界”!李飞飞World labs 最全视频 Demo 合集
昨晚,谷歌DeepMind团队发布了一个大型基础世界模型:Genie 2
给它一张图片,可以生成供人类游玩的无限 3D 世界,不需要借助任何游戏引擎,就可以直接玩起来。
通过W/A/S/D键来控制上下左右视角,或者用鼠标拖动画面来逛这个生成的世界,实时渲染,可控,可交互。
你可以控制角色与建模的各种物体进行交互,如:扎破气球、开门、射击药桶。
和上一代Genie 1相比,Genie 2拥有长期记忆。即使是角色短暂离开画面,在它们重新进入视野后,依旧能精准的还原出来。
而且Genie 2 生成的世界能在长达一分钟的时间内保持一致性,不会出现如何其他画面的变化。
更为牛逼的是,Genie 2还能生成反事实视频帧,意思就是Genie 2能够基于同一个画面,人类玩家可以控制角色进行不同的行动。
连马部长都觉得Genie 2非常酷,随后DeepMind创始人Hassabis邀请他一起做个AI游戏,最后,马斯克欣然答应了。
看来,马部长已经迫不及待得想要试玩一番了,要知道马斯克的游戏水平可不低:前段时间马斯克以1分52秒的成绩,通关了《暗黑 4》中 的150 层 “工匠之坑”,创造了新的世界纪录。
关联阅读:玩《暗黑 4》排世界第一,大玩家马斯克宣布进军游戏业
DeepMind推出Genie 2,可不光只是为了造福游戏行业,还有另一项重要的作用,用于训练和评估具身智能体。
比如:研究人员用 Genie 2 生成一个有两扇门(蓝门和红门)的 3D 环境,然后控制智能体去打开不同的门。
在训练具身智能体时,常常会因为缺乏足够丰富和多样化的训练环境而受到限制。
而现在,随着Genie 2的出现,将拥有无限的具身智能体训练数据。
Genie 2 是一个自回归潜在扩散模型,它在大规模视频数据集中进行训练,然后通过自动编码器提取视频的潜在帧,再利用带有因果掩码的大型变换器动态模型进一步处理。
DeepMind 还开发了一个蒸馏版本的 Genie 2,可以在实时运行,但输出质量会有所降低。
前不久,李飞飞空间智能的首个项目,和Genie 2 似乎有一样的能力,都能基于单张图像生成可交互的 3D 场景,那它们俩有什么不同之处呢?
机器之心的报道似乎能给出我们需要的答案:普林斯顿AI创新中心创始人、主任,终身教授王梦迪告诉机器之心,「飞飞的 World Labs 和 Google 的 Genie2 看上去都是从一张图片生成可以交互的三维场景,但有本质区别。Genie2 还是 video diffusion(视频扩散),每一帧的生成都是 pixel prediction(像素预测),并通过额外的用户输入的 guidance(引导)来影响下一帧的概率分布。而飞飞的 World Labs 是更进一步挖掘世界的物理本质:从图片出发,估计图片中不同景物的深度和相对关系,生成了更加物理世界的 3D 环境建模,不仅仅是可互动视频。」
貌似李飞飞的研究项目似乎更接近真正的世界模型一些。
目前,Genie 2还处于早期研究阶段,我们也可以看到官方放出的Demo中经常出现画面模糊、角色不受控等场景….
不过Genie 2的出现,似乎让我们看到了世界模型的雏形。
(文:AI先锋官)