统一多模态模型的目标是整合深度理解(通常产生文本输出)和丰富的生成(产生像素输出),将这两种不同的模态在单一架构中对齐面临着巨大挑战,如何有效地将自回归 MLLMs 的潜在世界知识转移到图像生成器中?

具体来说,MetaQueries使用一组随机初始化的可学习查询(Q),直接输入到冻结的MLLM中,以提取用于多模态生成的条件(C)。这些条件通过一个可训练的连接器对齐到文本到图像扩散模型的输入空间。整个模型使用原始的生成目标在成对数据上进行训练。

-
可学习查询在图像生成质量上与使用MLLM的最后一层嵌入相当,甚至在使用更多tokens时可以超越它。 -
冻结MLLM可以在保持SOTA多模态理解性能的同时,实现与完全微调MLLM相当的图像生成性能。



指令调整的定性结果。 经过指令调整的 MetaQuery 实现了强大的主体驱动能力(第一行),甚至可以通过多模态输入进行推理以生成图像(第二行)。



https://arxiv.org/pdf/2504.06256
Transfer between Modalities with MetaQueries
Project Page: https://xichenpan.com/metaquery
(文:PaperAgent)