智东西2月20日报道,今日凌晨,微软第一个世界和人类行动模型(WHAM)Muse登上国际顶级学术期刊Nature。
Muse是视频游戏生成模型,其参数量最高达到16亿,是基于接近7年的人类游戏数据进行训练,其可以理解游戏中的物理和3D环境,然后生成对应玩家的动作以及视觉效果。
不过,因为研究工作仍处于早期,目前其仅限于以300×180像素的分辨率生成游戏视觉效果。
微软正在开源权重和样本数据,并提供了一个可视化的交互界面WHAM Demonstrator供开发者体验,开发者可以在开发人员可以在Azure AI Foundry上学习试验权重、示例数据和WHAM Demonstrator。
Xbox正在考虑基于Muse为用户构建简短的交互式AI游戏体验,将很快在Copilot Labs上试用。
论文地址:
https://www.nature.com/articles/s41586-025-08600-3
Muse上下文长度为1秒,在7 Maps数据集上训练,每张图像都以数据集的原始分辨率300×180编码为540个Tokens。7 Maps数据集的数据量相当于7年多的人类游戏时间。研究人员从Xbox游戏Bleeding Edge的7张游戏地图中提取了大约50万个匿名游戏会话的数据,磁盘上总计27.89TiB。
此外,还有1500万到8.94亿参数的模型,上下文长度为1秒,在7 Maps过滤后的Skygarden数据集上训练,每张图像将以128×128编码成256个Tokens。该数据集指的是仅在Skygarden地图上进行1年匿名游戏的数据。
微软官方发布的示例都是通过提示模型使用10个初始帧(1秒)的人类游戏和整个游戏序列的控制器动作来生成的。
例如,用户可以将视觉对象作为初始提示加载到模型,下方视频添加了Bleeding Edge中的图像,然后使用Muse从此起点生成多个可能的延续图像。
此外,用户还可以浏览生成的序列并进行调整,例如使用游戏控制器来指导角色。这些功能演示了Muse的功能如何将迭代作为创作过程的一部分。
Muse基于人类游戏数据进行训练,以预测游戏视觉效果(“帧”)和玩家的控制器动作(“模型架构和数据”部分)。生成的模型准确捕获了游戏环境的3D结构(“模型评估”部分)、控制器动作的效果和游戏的时间结构,使得其生成的视频可以连贯、一致且具有多样性。
一致性需要一个顺序模型,该模型可以准确捕获游戏视觉效果和控制器动作之间的依赖关系;多样性需要模型可以生成数据,保留数据集中视觉对象和控制器动作的顺序条件分布。最后,持久性是通过预测模型提供的,该模型可以以 (修改的) 图像和控制器动作作为条件。
其研究方法的关键是将数据构建为一系列离散的Tokens。为了将图像编码为Tokens序列,研究人员使用VQGAN图像编码器。其中,用于对每张图像进行编码的Tokens数量是一个关键的超参数,它可以平衡预测图像的质量与生成速度和上下文长度。
对于Xbox控制器作,尽管按钮本身是离散的,但研究人员将左右摇杆的x和y坐标离散为11个Buckets,然后训练一个仅解码器的转换器来预测交错图像和控制器动作序列中的下一个Tokens。生成的模型可以通过对下一个Tokens进行自回归采样来生成新的序列。生成过程中,研究人员还可以修改Tokens,以允许修改图像或者控制器动作。
微软高级研究员Tabish Rashid提到:“最初分配H100是相当艰巨的,尤其是在早期阶段,要弄清楚如何最好地利用它来扩展到带有新图像编码器的更大型号。经过数月的实验,终于在不同的地图上看到模型的输出,并且不必眯着眼睛看较小的图像,这是非常有益的。”
研究人员通过Fréchet视频距离 (FVD)衡量一致性效果。研究中使用模型生成游戏视觉效果,以包含视频和控制器动作的1秒游戏体验为条件,再加上人类玩家在接下来的9秒内的游戏过程中采取的控制器动作,可以看出生成的游戏玩法与真实情况匹配。
Wasserstein距离是以前用于评估模型动作是否捕捉到人类动作全部分布的指标。研究人员将真实人类行为的边际分布与模型生成的边际分布进行了比较,Wasserstein距离越短,模型的世代就越接近人类玩家在我们的数据集中采取的行动。
在训练过程中,所有模型的Wasserstein距离都会减小,接近人与人基线(计算为人类动作序列中两个随机动作子集之间的平均距离)。
为了评估模型的持久性,研究人员通过插入 游戏内对象、其他玩家、地图元素之一来手动编辑游戏图像。结果表明,Muse能够保留已插入到看似合理但新的起始位置的常见游戏元素。
(文:智东西)