近年来,文生图(T2I)模型技术迅速发展,催生了 Dreamina、DALL·E3 和 Midjourney 等热门工具。它们能够精准理解用户的 prompt(提示词),将简短描述转化为高质量且富有美感和一致性的图像。
这一技术显著降低了创作门槛,提升了效率和趣味性,让艺术创作、广告设计及日常分享变得更加简单直观。文生图技术的普及,为数字内容创作开辟了全新可能性。
然而,评估这些模型的性能,特别是在图文匹配度方面,一直是一个挑战。传统评估方法已无法全面衡量图像与文本的匹配度,现有标准无法有效的捕捉细节偏差和一致性问题。
为解决这一问题,抖音多媒体质量实验室与豆包大模型团队及南开大学合作,推出了业界规模最大的文生图评估数据库——EvalMuse-40K。此外,还提出两种达到 SOTA 的图文匹配度评估算法——FGA-BLIP2 以及 PN-VQ。
利用 EvalMuse-40K,我们探索了现有图文匹配度评估方法与人类偏好的一致性,并使用提出的方法对现有 T2I 模型进行了评估和排序,为该领域提供了重要的参考和指导。
名词解释:
2. Prompt:Prompt(引导词),是一段自然语言描述的文本,它作为 AI 模型的重要输入来指导模型生成内容。
4. SOTA:“State Of The Art” 的缩写,通常用于描述某个领域的最新发展,或某个产品、服务或解决方案的最新版本。
EvalMuse-40K 是一个包含 40,000 对图像-文本对和超过 100 万细粒度人类标注的 Benchmark,旨在全面评估图文匹配度评估方法的性能和 T2I 模型在图像-文本对齐方面的表现。
该 Benchmark 的构建过程既复杂又细致,我们通过精心设计的数据集和标注体系,力求能够更好的评估现有图文匹配度评估方法与人类偏好的一致性,并最大程度地反映 T2I 模型在实际应用中的表现。
我们的工作不仅仅是构建一个大规模的 Benchmark,更包括了开发创新的评估算法 FGA-BLIP2 以及 PN-VQA,旨在提高图文匹配度的评估精度与一致性。整体的工作架构图如下所示:
EvalMuse-40K 是目前业界规模最大的文生图(T2I)评估数据库,包含 40,000 组图像-文本对数据和超过 100 万细粒度的人类标注,旨在全面评估图文匹配度评估方法的性能和 T2I 模型在图文匹配度上的表现。
EvalMuse-40K 的构建过程复杂而细致。我们首先从 DiffusionDB 中收集了 2,000 个真实用户的提示,这些提示反映了用户的多样化需求。同时,我们生成了 2,000 个合成提示,涵盖了物体数量、颜色、材质、环境设置、活动属性等多个方面,以全面评估 T2I 模型在不同任务中的表现。
接下来,我们使用 20 种不同的扩散模型生成了 40,000 张图像,确保了图像的多样性和质量。在数据标注阶段,我们对这些图像-文本对进行了细致的人工标注,涵盖图像-文本对齐评分、元素级别的匹配检查和结构问题标记。标注过程分为预标注、正式标注和重新标注三个阶段,以确保数据的可靠性和准确性。
与现有的文本到图像(T2I)模型的 Benchmark 相比,EvalMuse-40K 提供了一个更大规模、更细粒度的评估数据库。超过 100 万细粒度人类标注,使得 EvalMuse-40K 在数据集规模和多样性上远超许多现有 Benchmark。与业界一些相关 Benchmark 的比较见下表:
为了确保 EvalMuse-40K 的可靠性和有效性,我们进行了全面的数据统计和深入分析。通过对图像-文本对齐分数的分布进行细致观察,我们发现这些分数覆盖了从低到高的广泛范围。这种多样化的分布不仅为我们提供了丰富的样本,也使得评估现有图像对齐度量与人类偏好之间的一致性成为可能。
此外,我们还对不同标注者之间的分数差异进行了详细计算,结果表明,75% 的样本分数差异小于 1 分,这表明我们的标注过程在各标注者之间具有较高的一致性。对于那些分数差异较大的样本,我们进行了重新标注,以进一步减少主观偏差,确保标注的可靠性和准确性。
我们还对细粒度标注中的元素数量和对齐分数进行了统计分析,发现大多数类别的整体对齐分数都集中在 50% 左右,这一结果确保了正负样本的平衡分布,为后续的模型评估提供了稳定的数据基础。通过对这些细节的深入分析,我们能够更精确地评估模型在图像与文本对齐任务中的表现。
为了更准确地评估文本到图像生成(T2I)模型的性能,我们开发了两种最先进的评估算法:FGA-BLIP2 和 PN-VQA。这两种方法都旨在提升图文匹配度评估的准确性,确保与人类评估结果的一致性。
FGA-BLIP2 是一种端到端的细粒度对齐评分模型,借助联合微调视觉-语言模型 BLIP2 来预测图像和文本之间的对齐程度。
该模型有三个显著特点:首先,它能够直接从图像和文本对中学习对齐分数,实现端到端的训练流程;其次,它不仅评估图像与文本的整体的匹配度,还对文本中的各个元素进行细粒度的评估,确保评估结果更加全面和精确,模型架构如下图 1 所示。
最后,FGA-BLIP2 采用了方差加权优化策略,使得模型在训练过程中更加关注那些对齐分数差异较大的样本,从而提升了评估的准确性和鲁棒性。
根据下表 1 所示,FGA-BLIP2 在多个数据集上的评估结果显示,与人类标注的相关性最为接近,取得了最佳的评估表现。这证明了该模型在图文匹配度评估中的高效性和可靠性。
▲ 表1
FGA-BLIP2 打分示例,其中 Result 为综合图文匹配度打分,分值为 1-5,分数越高,匹配度越好;Elescore 为 prompt 中的考点元素的命中概率,如果在 0.5 以上,说明模型认为该考点元素可以在图像中匹配到。
prompt |
图像 |
打分结果 |
A photograph of a lady practicing yoga in a quiet studio, full shot. |
|
JSON |
The word ‘START’,Five letters |
|
JSON |
PN-VQA(Positive-Negative Visual Question Answering)是一种用于评估文本到图像生成模型性能的方法,借助预训练的多语言视觉问答模型(MLLM)来衡量生成图像与输入文本之间的对齐程度。这种方法的创新之处在于引入了正负问答机制,从而提升评估的准确性和鲁棒性。
具体而言,我们首先利用 GPT 对生成图像所使用的 prompt 中的细粒度信息进行问题生成,确保生成的问题为简单的判断题,能够有效判断细粒度信息与图像是否匹配。例如,如果 prompt 是 “a cat sitting on a mat”,生成的问题可能是 “Is there a cat in the image?”,生成的答案则为 “Yes”。
通过这种方式,我们能够精准地判断图像与细节文本之间的对齐情况,从而为模型的评估提供更细致、可靠的依据。接下来,我们构建了正负 VQA 内容,并进行了相关实验,以进一步验证该方法的有效性和优势。
JSON
正向:Given an image generated from ‘a cat sitting on a mat’ , is the answer to ‘is there a cat in the image?’ in this image yes?
负向:Given an image generated from ‘a cat sitting on a mat’ , is the answer to ‘is there a cat in the image?’ in this image no?
正向 VQA 问题的预期答案为 “yes”,而负向 VQA 问题的预期答案为 “no”。我们分别计算多语言视觉问答模型(MLLM)对这两类问题输出预期答案的概率,然后取其平均值作为最终的细粒度匹配分数。
这种方法有效地减少了模型在输出 “yes” 或 “no” 时可能存在的偏好,从而获得了一个更加平衡且鲁棒的评估结果。下表 2 展示了我们提出的 PN-VQA 各个模块的有效性。
▲ 表2
线下验证结果
在 EvalMuse-40K 测试中,我们使用 FGA-BLIP2 对 T2I 模型的图文对齐任务进行了排序。我们从数据集中选取了 100 个具有代表性的 prompt,并让每个模型针对每个 prompt 生成四张不同的图像。随后,我们使用 FGA-BLIP2 评估了这些图像与输入文本的对齐程度。
通过计算整体对齐分数和细粒度对齐分数,我们对各模型进行了排序。结果显示,一些专有模型,如 Dreamina-v2.0pro、DALL·E3 和 FLUX1.1,在图像-文本对齐方面表现尤为突出。具体的排序内容请参见下表:
项目开源地址:
https://shh-han.github.io/EvalMuse-project/
(文:PaperWeekly)