ICML 2025  细粒度图文对齐突破!360发布全新一代图文跨模态模型FG-CLIP

©作者 | 谢春宇,王斌

单位 | 360人工智能研究院


做为多模态+大模型研究的重要开创性工作,自 20 年 OpenAI 发布第一代图文跨模态模型 CLIP 以来已经过去了 5 年的时间。


第一代 CLIP 模型及其后续各种改进模型广泛应用于互联网搜广推、办公检索、安防自动化等众多领域,并进一步做为 backbone encoder 应用于当前的各种图像生成、视频生成以及多模态大模型中。


以 CLIP 为代表的第一代图文跨模态模型因其基于图文整体特征进行对齐的对比学习原理,一直存在图文特征对齐粒度粗,无法实现图文细粒度理解的核心难题,制约了它在搜索、推荐、识别中的应用效果。


针对这一核心难点,360 人工智能研究院冷大炜博士团队基于前期在多模态理解与多模态生成领域的工作积累,研发了新一代的图文跨模态模型 FG-CLIP,攻克了显式双塔结构下图文信息的细粒度对齐难题。


FG-CLIP 同时具备图+文细粒度理解能力,文本细粒度能力可以有效区分目标细节属性的不同,如区分 “a man with light blue jacket” vs “a man with grass green jacket”;图像细粒度能力可以有效对不同的图像局部区域进行理解,不会因图像裁切造成性能下降。FG-CLIP 在关键的细粒度比对和细粒度理解上实现了大幅突破。

为了推动行业的共同进步,FG-CLIP 已在 Github 和 Huggingface 上开源,权重可商用,相关论文也已被 AI 顶会 ICML 2025 接收。


开源地址:

https://github.com/360CVGroup/FG-CLIP

论文地址:

https://www.arxiv.org/abs/2505.05071



图文跨模态模型

今天我们聊聊“图文跨模态模型”,一个能在语义层面实现图像信息和文字信息之间进行相互转换的“翻译官”。


和能直接陪你聊天的 DeepSeek / 豆包模型不同,这位“翻译官”更像幕后的工程师——你看不到它,但每天都在享受它的服务:找图更快、推荐更准、办公更省心…… 它就像科技产品的“隐形默契搭档”,让体验更懂你的需求。


我们平时刷到的那些 “神操作” 其实都离不开它:比如用手机输入文字就能生成动漫插画、风景海报的绘图软件(Stable Diffusion、可图),还有能把“小猫追蝴蝶”的文字描述变成动态视频的工具(Sora、即梦),背后都需要这位“翻译官”先把文字和图片的信息“翻译”成机器能懂的语言,让两者“对上频道”。


不只是这些有趣的应用,咱们日常生活里处处都有它的影子:


  • 上网搜索:当你搜“海边日落风景图”时,它能帮你精准找到匹配文字描述的图片;

  • 刷短视频 / 逛购物 App:你看到的美食推荐、衣服穿搭内容,其实是它根据你的浏览习惯,把“你可能喜欢”的文字标签和图片 / 视频“牵线搭桥”;

  • 办公软件:比如用智能文档问 “如何做年度总结”,它能快速从海量资料里找到图文结合的答案;

  • 监控系统:商场、街道的摄像头能自动识别“异常行为”,也是它在帮忙“看图说话”,快速判断画面里的情况。

视觉与语言的跨模态理解是大模型时代众多关键技术与业务应用的核心基石,如多模态大语言模型,图像生成模型,视频生成模型等,都要用到图文跨模态模型进行视觉信息和/或文本信息的编码和模态对齐。


与直接能与终端用户交流对话的智能问答不同的是,图文跨模态模型不被普通用户所见,但我们每天可以通过各种产品如互联网搜索,商品推荐,文档办公等来感受图文跨模态模型给我们的生活带来的上述现实便利。


当前普遍使用的图文跨模态模型如 OpenAI CLIP,EVA-CLIP 等,仍是基于第一代的整体图文对比学习算法训练得到,它们擅长捕捉全局信息,却难以分辨物体的细微属性差异,在处理细粒度视觉理解时面临非常大的挑战。


例如,区分“一只黑色的狗”与“一只深棕色的狗”,或识别“陶瓷茶杯”与“玻璃茶杯”的材质差异,往往会让模型陷入困惑。攻克图文跨模态模型存在的上述“近视”问题,提升模型对图文局部细节的深度理解,是我们关注的一个重要研究课题。


视力大挑战:找一找右边的哪句话,正确描述了左边图像里的内容?答案在最右侧。

可以发现,4 个常用模型:CLIP、EVACLIP、SIGLIP、FINE-CLIP 基于左侧图片选出的最匹配的文本描述是:A blue dog with a white colored head。


显然这个描述是错误的,这些模型因为“近视”问题忽略了目标的属性匹配。正确答案是由今天我们要介绍的新模型 FG-CLIP 选出的 A light brown wood stool(一个浅棕色的木凳子),注意看,这个木凳子位于画面的中央偏右,悄悄隐藏在狗狗的身后。


FG-CLIP(Fine Grained CLIP)是由 360 人工智能研究院最新发布的图文跨模态模型,与现有模型相比,FG-CLIP 有效解决了前述的“近视”问题,在关键的长文本理解+细粒度比对上实现了大幅的双突破。


FG-CLIP 在细粒度理解、开放词汇对象检测、长短文本图文检索以及通用多模态基准测试等下游任务中均显著优于原始 CLIP 和其他最先进方法。相关的代码和模型已在 Github:https://github.com/360CVGroup/FG-CLIP 开源发布。



模型方法

FG-CLIP 在传统双编码器架构基础上采用两阶段训练策略,有效提升了视觉语言模型的细粒度理解能力。首阶段通过全局对比学习实现图文表征的初步对齐;次阶段引入区域对比学习与难细粒度负样本学习,利用区域-文本标注数据深化模型对视觉细节的感知能力,从而在保持全局语义理解的同时实现了对局部特征的精准捕捉。

2.1 全局对比学习

全局对比学习通过整合多模态大模型生成的长描述,显著增强了模型的细粒度理解能力。这种方法不仅生成了内容丰富的长描述,还提供了更完整的上下文信息和更精准的细节描述。


通过引入长描述,模型得以在全局层面感知和匹配语义细节,从而大幅提升了其上下文理解能力。同时,FG-CLIP 保留了原有的短描述-图像对齐机制,使长短描述形成互补。


这种双轨并行的策略使模型既能从长描述中获取复杂的语义信息,又能从短描述中把握核心概念,从而全面提升了模型对视觉信息的理解和处理能力。

2.2 局部对比学习

局部对比学习通过精准对齐图像局部区域与对应文本描述,实现细粒度的视觉-语言关联。具体而言,FG-CLIP 首先运用 RoIAlign 从图像中精确提取区域特征,继而对每个检测区域施加平均池化操作,获取一组富有代表性的区域级视觉表征。


这些局部特征随后与预先构建的细粒度文本描述进行对比学习,促使模型建立区域视觉内容与文本语义之间的精确映射关系,从而掌握更为细致的跨模态对齐能力。

2.3 区域级难负样本对比学习

针对细粒度负样本稀缺这一挑战,FG-CLIP 提出了一种难细粒度负样本学习方法。FG-CLIP 将语义相近但与正样本存在细微差异的样本定义为难负样本,并通过对边界框描述进行属性层面的微调和重写来构建这些样本。


为了充分利用难细粒度负样本提供的判别信息,FG-CLIP 在损失函数中引入了特定的细粒度负样本学习策略。在训练过程中,模型需要同时计算区域特征与正样本描述及其对应负样本描述之间的相似度,从而学习更精细的视觉-语言对齐关系。



数据构建

3.1 通过 LMM 进行详细的图像描述重写

在初始训练阶段,FG-CLIP 采用了经过增强优化的 LAION-2B 数据集,其中的图像标注经由 CogVLM2-19B 重新生成。这种改进显著提升了数据质量,使描述更加精确和内容丰富。


传统 LAION-2B 数据集往往采用笼统的描述方式,难以支持精细化任务的需求。以鸟类图像为例,原始标注可能仅为“一只鸟”,而忽略了物种特征和环境细节。


通过引入先进的多模态大模型,生成的描述不仅准确识别目标对象,还涵盖了对象特征、行为模式及场景关联等多维信息。举例而言,简单的“一只鸟”被优化为“一只红翼黑鸟栖息在公园的树枝上”,大幅提升了描述的信息密度。


借助 160×910B 规模的 NPU 计算集群,我们在 30 天内完成了全部数据处理工作。实验结果显示,这种优化显著提升了模型在多个任务上的表现,充分证明了高质量文本标注对提升模型精确度和语境理解能力的关键作用。

3.2 创建高质量的视觉定位数据

对于训练的第二阶段,我们开发了一个高质量的视觉定位数据集,包含精确的区域特定描述和具有挑战性的细粒度负样本。我们根据 GRIT 提供的图像来制作整个数据集。


这一过程首先使用 CogVLM2-19B 生成详细的图像描述,确保描述全面且细腻,能够捕捉每张图像的全部背景信息。


随后,使用 SpaCy 解析这些描述并提取出指代表达。


接着,将图像和指代表达输入预训练的开放词汇检测模型,这里采用 Yolo-World 以获得相应的边界框。


通过非极大值抑制消除重叠的边界框,仅保留预测置信度得分高于 0.4 的边界框。这一过程产生了 1200 万张图像和 4000 万个带有精细区域描述的边界框。

为生成高质量的细粒度负样本,我们在维持对象名称不变的前提下,对边界框描述的属性进行精细调整。


具体而言,我们借助 Llama-3.1-70B 大语言模型,为每个正样本构建 10 个对应的负样本。为提升描述的可读性,我们移除了分号、逗号和换行符等标点符号。


经过对 3,000 个负样本的质量评估,98.9% 的样本达到预期标准,仅 1.1% 被判定为噪声数据,这一比例符合无监督方法的可接受范围。这种方法产生的细微变化更贴近现实场景,能够更好地模拟物体在保持基本类目相似的同时,具体细节存在差异的情况。

这项大规模数据集由 1200 万张高质量图像构成,每张图像都配备精确的语义描述。其中包含 4000 万个边界框标注,每个边界框都附带详尽的区域描述,同时还整合了 1000 万个经过筛选的难细粒度负样本。


数据处理阶段调用了 160×910B 算力的 NPU 集群,历时7天高效完成。这套丰富而系统的数据集显著提升了模型识别精细特征的能力,为 FG-CLIP 的训练奠定了扎实基础,使其在视觉与文本特征的细粒度理解方面表现卓越。



实验效果-量化指标

4.1 细粒度识别

我们基于 FG-OVD 数据集对开源图像-文本对齐模型进行了系统评估。与 MSCOCO 和 Flickr 等聚焦整体匹配的传统基准不同,FG-OVD 专注于考察模型识别和定位图像局部区域的精细化能力。


在评估过程中,每个目标区域都配备了一个精准描述和十个经过精心设计的负向样本,这些负向样本通过对正确描述的策略性修改而生成。


FG-OVD 数据集划分为四个难度递进的子集,其区分度主要体现在待匹配文本之间的相似程度上。具体而言,hard、medium 和 easy 子集分别通过替换一个、两个和三个属性词来构造负样本,而 trivial 子集则采用完全无关的文本描述,形成了一个从细微差别到显著差异的评估体系。


由表中可以看到,FG-CLIP 相对于其他方法,在各项指标上都能获得显著提升,这也证明了该方法在细粒度理解上的能力。

4.2 区域识别

我们在 COCO-val2017 数据集上开展零样本测试,评估模型识别局部信息的能力,测试方案参照 FineCLIP 和 CLIPSelf。


这项评估着重考察模型仅依靠文本描述对边界框内目标进行分类的表现。具体实现中,FG-CLIP 利用数据集中的边界框标注,结合 ROIAlign 技术提取局部区域的密集特征表示。


在测试阶段,将所有类别标签作为候选文本输入,对每个边界框区域进行匹配和分类,并通过 Top-1 和 Top-5 准确率进行性能评估。FG-CLIP 同样在这个下游任务上取得了最好的结果。

4.3 开放词汇目标检测

为了进一步评估 FG-CLIP 的方法的细粒度定位能力,我们采用 FG-CLIP 作为下游开放词汇检测任务的 Backbone。具体来说,我们采用了一个两阶段检测架构 F-VIT,并在训练中冻结了视觉编码器。


从表格中可以看出,FG-CLIP 在开放词汇目标检测任务上表现更加突出,证明了经过高质量数据和优化方法训练的模型能够在更深层次的任务上取得优越的性能。

4.4 图文检索/分类结果

为了全面评估图像力度的任务,我们对长标题和短标题图像文本检索任务以及零样本图像分类任务进行了实验。


如表所示,FG-CLIP 在长/短标题图像-文本检索任务中都取得了显著的性能提升。与旨在提高细粒度识别能力的 Long-CLIP 和 FineCLIP 相比,FG-CLIP 在图像分类这种短文本-全图问题上的准确率方面具有明显优势。该模型处理不同图像描述长度的能力突出了其在多模态匹配中的通用性和鲁棒性。



实验效果-可视化对比

5.1 图像细节差异效果对比

我们针对文本输入对图像特征进行了可视化。图中,暖色调(如黄色)表示相关性较高,而冷色调(如蓝色)表示相关性较低。


首先是针对相同的输入文本和图像,对不同模型的 ViT 特征进行比较,可以发现 FG-CLIP 在这种细粒度理解问题上表现更好。如图中的第二行所示,当输入 “Black nose” 时,FG-CLIP 可以对该小目标实现准确的识别。

5.2 在不同输入文本下的可视化图

我们同样将不同的输入文本和相同图片做相关性分析。可以发现,对于图像中的不同目标,FG-CLIP 都能给出准确的位置理解,这表明了该模型具有稳定的视觉定位和细粒度理解能力。



总结

FG-CLIP 在细粒度视觉理解领域取得了突破性进展。该模型创新性地整合了前沿图文对齐技术,并基于大规模精选数据集和难细粒度负样本学习策略,实现了对图像的多层次语义解析。其独特优势在于能同时把握全局语境和局部细节,精准识别和区分细微特征差异。


大量实验结果表明,FG-CLIP 在各类下游任务中均展现出优异表现。为推动领域发展,我们决定将 FG-CLIP 相关代码和预训练模型开源,地址:research.360.cn。未来我们的研究方向将聚焦于融合更先进的多模态架构,以及构建更丰富多元的训练数据集,以进一步拓展细粒度视觉理解的技术边界。


(文:PaperWeekly)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往