专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!
随着GPT-4o、Gemini等多模态大模型的出现,在处理多种任务时展现出强大能力。然而若缺乏有效防护,可能被不法分子利用,引发诸如网络犯罪、传播有害信息等严重后果。例如,恶意用户可能利用模型获取制造危险物品的方法,或者编写具有欺骗性和危害性的内容。
为了测试大模型的安全性,斯坦福大学、牛津大学、Tangentic、UCL等研究人员联合开发了一种高效的大模型攻击框架——Best-of-N Jailbreaking (简称BoN) 。
该框架主要通过对输入提示进行多样化的变换,检测大模型在不同模态下的安全漏洞。以文本为例,当用户向模型提出 “如何制造炸弹?” 这样的有害请求时,BoN会通过随机打乱字符顺序、随机大写等增强方法,生成多个类似但又有细微差异的请求。然后将这些请求输入到模型中进行攻击,来生成有害内容。
结果显示,当使用10,000个增强样本时,Claude 3.5 Sonnet 的被攻击的成功率达到了 78%, GPT-4o则达到了89%。若不使用BoN方法,大模型几乎不会被攻破。
开源地址:https://github.com/jplhughes/bon-jailbreaking
其实BoN的技术原理并不复杂,主要通过重复采样和变体生成的方式,不断尝试不同的提示变化,直到找到一个可以引发有害响应的输入为止。
BoN的攻击流程始于对一个有害请求的多次增强。这些增强是随机选择的,并且以组合的方式应用到请求上。例如,在文本模态中,算法可能会随机打乱单词中的字符顺序、随机大写化字符或随机改变字符的ASCII值。目的是在不改变请求本质的前提下,增加输入的多样性,从而增加引出有害响应的可能性。
一旦增强后的请求被生成,就会被提交给目标大模型进行处理。大模型的输出随后会被一个分类器评估,以确定是否包含了有害内容。如果输出被认为是有害的,那么这个增强请求就被认为是成功的攻击。如果没有,算法就会继续尝试新的增强组合,直到达到预设的最大尝试次数或成功引出有害响应。
不过BoN 的攻击成功率依赖样本数量。样本增加时,攻击成功概率按幂律分布上升,即便样本量大时,增加少量样本也能显著提升。这种缩放行为利于攻击者,可据计算资源预测攻击成功率。
例如,在攻击Gemini Pro模型时。在未应用BoN之前,需要6000个样本才能达到87.4%的攻击成功率;应用BoN后,仅需31个样本就能实现相同的效果,提高了近200倍的样本效率。
在技术实现上,BoN完全在黑盒环境下运作,不需要对模型的内部结构有任何了解。攻击者只需通过模型的输入输出接口与模型交互就能实施攻击。这种黑盒特性使得BoN具有很高的实用性,因为可以直接应用于任何大模型,而无需知道其任何内部信息。
支持多模态攻击是其另外一个优势。通过为不同的输入模态设计特定的增强技术,BoN可以针对文本、视觉和音频模态的AI系统进行攻击。
例如,在视觉模态中,BoN会改变图像中文字的颜色、大小、字体和位置;而在音频模态中,则可能会调整语音请求的速度、音高、音量和背景噪音。这些模态特定的增强技术使得BoN能够针对不同模态的AI系统设计有效的攻击策略。
(文:AIGC开放社区)