
新智元报道
新智元报道
【新智元导读】澳大利亚国立大学团队提出了ARINAR模型,与何凯明团队此前提出的分形生成模型类似,采用双层自回归结构逐特征生成图像,显著提升了生成质量和速度,性能超越了FractalMAR模型,论文和代码已公开。

GitHub 地址:https://github.com/LTH14/fractalgen
最近,澳大利亚国立大学的研究人员提出了一个全新的图像生成模型ARINAR,在思想上与分形生成模型不谋而合,但是在性能和速度上都显著提升,base模型的FID从11.8提升到2.75,生成时间从2分钟降低到12秒!ARINAR不仅超越了之前的扩散模型,与目前表现最好的自回归模型MAR相比,ARINAR生成质量相当,速度是MAR的5倍。

GitHub地址:https://github.com/Qinyu-Allen-Zhao/Arinar
ARINAR全称是双层自回归逐特征生成模型(Bi-Level Autoregressive Feature-by-Feature Generative Models),核心思想在于:通过逐特征生成的方式生成tokens,从而提高整体图像生成的质量和速度。
设计动机
这里的token可以理解为图像的某种表示形式,通常是使用自编码器(如VAE)实现图像与一系列tokens之间的转换。每个token可以看作图像的一个局部区域或特征的编码。
研究人员指出,逐token生成的核心挑战在于如何建模高维token的复杂分布。每个token通常是一个高维向量(例如16维)。当模型需要预测下一个token的分布时,如何准确地表达和预测该token的分布一直是一个难题。
现有的方法主要有两种思路:
-
离散token生成:一些方法使用特殊的自编码器(如VQVAE)将图像转换为离散的token,然后使用多项式分布来建模token的分布。这种方法的问题在于,离散化会引入量化误差,导致生成图像的质量下降。 -
连续token生成:另一些模型尝试直接建模连续token的分布。
例如,GIVT模型使用高斯混合模型(GMM)来预测token的分布,并从GMM中采样生成token。然而,实践中GMM难以准确拟合复杂的高维token分布;
另一种方法是MAR模型,使用轻量级的扩散模型来生成token。虽然扩散模型能够更好地拟合分布,但扩散过程通常需要上百次迭代,导致整个模型生成速度较慢。
这些方法的局限性在于,要么过于简单,无法很好地拟合复杂的token分布,要么生成速度较慢。
因此,研究人员提出了一个新的思路:逐特征生成。
具体来说,模型每次不再一次性生成整个token,而是逐特征生成。每个token由多个特征组成(例如16维),模型会先生成第一个特征的分布并采样出第一个特征,然后基于这个特征生成第二个特征的分布,再采样出第二个特征,依此类推,直到生成整个token。
方法设计
外层自回归层:这一层负责生成token的条件向量。具体来说,它基于已经生成的token,预测下一个token的条件向量。这里外层可以是任意之前的自回归模型,例如使用MAR。
内层自回归层:这一层基于外层生成的条件向量,逐特征生成下一个token。具体来说,内层会先生成第一个特征,然后基于这个特征生成第二个特征,依此类推,直到生成整个token。
假如一个图像被转换成256个16维的tokens,那么外层自回归模型就会运行256次,每次预测下一个token的条件向量。每次外层自回归模型生成条件向量后,内层自回归模型就会运行16次来逐特征生成相应的token。
这种双层结构的好处是,内层自回归只需专注于单个特征的生成,而不需要一次性建模整个token的分布。因此,内层可以使用简单的高斯混合模型(GMM)来建模单个特征的分布,从而大大简化了预测token分布的难度。
与FractalMAR的关系
也就是说,FractalMAR的每一层都负责生成图像的不同部分,从大块区域到单个像素。例如使用一个四层自回归模型:
-
最外层生成整个图像的大块区域; -
第二层生成每个大块区域中的小块区域; -
第三层生成每个小块区域中的像素; -
最内层生成每个像素的RGB值。
实验结果
研究人员在ImageNet 256×256图像生成任务上对ARINAR进行了测试,使用了213M参数的模型(ARINAR-B)。实验结果显示:


总结与不足
ARINAR通过逐特征生成的方式,简化了自回归模型的复杂度,同时提高了生成速度和生成质量。
(文:新智元)