GPT-4o、Claude 3.5全部被攻破，开源大模型超强攻击框架

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

随着GPT-4o、Gemini等多模态大模型的出现，在处理多种任务时展现出强大能力。然而若缺乏有效防护，可能被不法分子利用，引发诸如网络犯罪、传播有害信息等严重后果。例如，恶意用户可能利用模型获取制造危险物品的方法，或者编写具有欺骗性和危害性的内容。

为了测试大模型的安全性，斯坦福大学、牛津大学、Tangentic、UCL等研究人员联合开发了一种高效的大模型攻击框架——Best-of-N Jailbreaking (简称BoN) 。

该框架主要通过对输入提示进行多样化的变换，检测大模型在不同模态下的安全漏洞。以文本为例，当用户向模型提出 “如何制造炸弹？” 这样的有害请求时，BoN会通过随机打乱字符顺序、随机大写等增强方法，生成多个类似但又有细微差异的请求。然后将这些请求输入到模型中进行攻击，来生成有害内容。

结果显示，当使用10,000个增强样本时，Claude 3.5 Sonnet 的被攻击的成功率达到了 78%， GPT-4o则达到了89%。若不使用BoN方法，大模型几乎不会被攻破。

开源地址：https://github.com/jplhughes/bon-jailbreaking

其实BoN的技术原理并不复杂，主要通过重复采样和变体生成的方式，不断尝试不同的提示变化，直到找到一个可以引发有害响应的输入为止。

BoN的攻击流程始于对一个有害请求的多次增强。这些增强是随机选择的，并且以组合的方式应用到请求上。例如，在文本模态中，算法可能会随机打乱单词中的字符顺序、随机大写化字符或随机改变字符的ASCII值。目的是在不改变请求本质的前提下，增加输入的多样性，从而增加引出有害响应的可能性。

一旦增强后的请求被生成，就会被提交给目标大模型进行处理。大模型的输出随后会被一个分类器评估，以确定是否包含了有害内容。如果输出被认为是有害的，那么这个增强请求就被认为是成功的攻击。如果没有，算法就会继续尝试新的增强组合，直到达到预设的最大尝试次数或成功引出有害响应。

不过BoN 的攻击成功率依赖样本数量。样本增加时，攻击成功概率按幂律分布上升，即便样本量大时，增加少量样本也能显著提升。这种缩放行为利于攻击者，可据计算资源预测攻击成功率。

例如，在攻击Gemini Pro模型时。在未应用BoN之前，需要6000个样本才能达到87.4%的攻击成功率；应用BoN后，仅需31个样本就能实现相同的效果，提高了近200倍的样本效率。

在技术实现上，BoN完全在黑盒环境下运作，不需要对模型的内部结构有任何了解。攻击者只需通过模型的输入输出接口与模型交互就能实施攻击。这种黑盒特性使得BoN具有很高的实用性，因为可以直接应用于任何大模型，而无需知道其任何内部信息。

支持多模态攻击是其另外一个优势。通过为不同的输入模态设计特定的增强技术，BoN可以针对文本、视觉和音频模态的AI系统进行攻击。

例如，在视觉模态中，BoN会改变图像中文字的颜色、大小、字体和位置；而在音频模态中，则可能会调整语音请求的速度、音高、音量和背景噪音。这些模态特定的增强技术使得BoN能够针对不同模态的AI系统设计有效的攻击策略。

（文：AIGC开放社区）