
在人工智能领域中,大型视觉-语言模型(LVLM)正以前所未有的速度快速发展,诸如 GPT-4.5、GPT-4o、Claude 和 Gemini 系列模型相继涌现,在图像理解、视觉问答和跨模态推理任务中展现了卓越的表现。
然而,这些广泛应用且影响巨大的商业黑盒模型的安全性问题逐渐浮现,如何有效评估与测试这些模型对敌对攻击的抵抗力,成为当前亟需解决的关键问题。
今天介绍一篇来自世界第一所人工智能大学 MBZUAI 的团队近期的研究成果 “M-Attack”,针对当前最先进的商业视觉语言大模型的漏洞,提出了一种令人意外简单却高效的攻击基准,成功地在刚刚发布不久的 GPT-4.5,以及之前的 GPT-4o、o1 等模型上实现了超过 90% 的攻击成功率。

项目主页:
https://vila-lab.github.io/M-Attack-Website/
论文链接:
https://arxiv.org/abs/2503.10635
代码链接:
https://github.com/VILA-Lab/M-Attack
以下是一些在不同模型上攻击结果的样例:


背景介绍
近年来,以 Transformer 为核心的大型视觉-语言模型(LVLMs)凭借海量图文数据训练的能力,在多模态理解任务中表现突出,不断刷新性能上限。然而,这些模型大多以黑盒形式提供服务,即用户无法了解其内部结构、训练数据以及特定的优化策略,这种“不透明性”使得攻击难度极大增加,也同时掩盖了模型潜在的安全漏洞。
传统的攻击方案通常以生成全局均匀扰动为主,这类方法虽然能在某些开源模型上取得一定成效,但一旦转移到更鲁棒的商业黑盒模型(例如 GPT-4o 和 GPT-4.5)时,往往效果不佳甚至失效。这主要是因为这些扰动缺乏明确的语义信息,难以被高度优化的商业模型有效捕捉。

研究意义
面对这些问题,本研究关注如何设计一种简单有效的攻击方法,使之能够成功跨越开源模型与商业黑盒模型之间的巨大语义鸿沟。成功实现此目标,不仅能帮助研究人员更深入理解当前先进模型的安全漏洞,还能为未来模型的鲁棒性提升提供直接、具体的指导。

方法介绍

如上图所示,本研究提出的 “M-Attack” 方法创新性地利用了局部语义对齐和模型集成策略来生成高效的局部扰动,以达到更高的攻击成功率。具体方法包括:
1. 局部语义对齐策略(Local-Level Matching):本文观察到,商业 LVLMs 通常会首先关注图像中的核心语义对象。因此,通过随机裁剪图像中的局部区域,并将裁剪后的图像与目标图像在嵌入空间进行语义对齐,能够生成更加清晰、精细的局部扰动,如下图所示。这种局部扰动与以往全局均匀扰动相比,更易于被黑盒模型精确识别,从而显著提升攻击成功率。

2. 模型集成策略:为进一步提升攻击的泛化性,本文还利用了模型集成的思路,即通过结合不同感受野大小的多个白盒模型,综合其对语义细节与全局结构的感知优势,显著提高扰动质量与转移能力。
具体而言,文章采用多种不同的 CLIP 变体模型,并在优化过程中不断评估局部裁剪后的源图像与目标图像之间的相似性,确保扰动具备更高的语义一致性。

实验结果分析
在实验部分,文章采用了 NIPS 2017 对抗攻击与防御竞赛的公开数据集,通过对千张图片的评估,全面验证了文章提出的方法的有效性。
实验结果清晰表明,所提出的 “M-Attack” 方法在包括 GPT-4.5、GPT-4o、Gemini-2.0 和 Claude-3.5 在内的多款先进商业模型上均取得了远超以往方法的攻击成功率。以下是一些具体的优化完成后的扰动可视化和图片示意图:


以下两张表格是跟之前 state-of-the-art 性能比较,具体来看,当扰动预算 ε 为 16 时,该方法在 GPT-4.5 上达到了惊人的 95% 的攻击成功率,相比当前最好的方法提高了一倍以上,而在 GPT-4o 上的成功率也同样达到 95%,较传统的攻击方法提升了近两倍。
此外,本文提出了一个全新的关键词匹配率(KMRScore)评估标准,明确定义了不同严格程度下的攻击成功标准,并且通过半自动化方式,有效降低了人为主观偏差,进一步证明了所提出方法的稳定性与普适性。


以下是不同优化步数下的消融实验,可以看到在不同商业模型上面,随着优化步数的增多,本文方法攻击成功率还在进一步上升,而其他方法则已经饱和不再提升,这体现出了本文方法的巨大潜力。

以下可视化对比了每个所提出的模块对于最终性能的重要程度,可以看到取消 source 图片的局部匹配对于最终性能的影响是最大的。

下图进一步展示了本文所提出的 local-matching 策略中 local 的重要性,只有在 source 图片通过局部匹配的策略优化过的图片才能得到较好的攻击结果,而 target 图片上面则没有这个限制,不管是使用局部还是全局图片参与优化都能得到不错的攻击性能。

下面可视化展示了在目前最强的不同黑盒商业 LVLM 模型上的实际攻击实例:




总结
实验分析显示,通过对局部语义细节的明确优化,能够显著提高攻击扰动的语义清晰度,使得扰动不仅能够欺骗模型输出错误结果,更能使模型输出具体、可信的错误描述,从而验证了局部语义对齐的重要性。
同时,通过消融实验,本文进一步证实了模型集成策略在增强扰动转移能力上的关键作用,这种多模型协作的优势远超过单一模型的表现。
综上所述,“M-Attack” 以一种令人“挫败”的简单方式,突破了当前最先进的视觉-语言模型,揭示了即使是 GPT-4.5 这样强大的商业模型,也无法完全避免局部语义扰动带来的攻击风险。
目前所有代码和优化后的图片已开源,更多算法细节欢迎阅读论文原文。
(文:PaperWeekly)