Top5团队！全球AI攻防挑战赛系列分享（五）

Datawhale干货

作者：赵禹博

AI+安全的实践系列分享来了！

11月20日，国内首个AI大模型攻防赛在世界互联网大会乌镇峰会收官。

颁奖仪式：乌镇峰会热议AI反诈：国内首个AI大模型攻防赛收官，全球十强亮相

通过攻防双向赛道竞技，大赛最终角逐出全球十强。

赛后Datawhale邀请到了本届十强，为大家带来系列复盘分享。

今天，我们和攻击方向的Top5团队聊一聊。

国内首个AI大模型攻防赛全球十强乌镇亮相

赛道一出题人代表点评

全球AI攻防挑战赛评审委员会成员、上海大学教授张新鹏：

“可信智能”团队制订了具有针对性的解决办法，替换风险元素和增加对抗式前后缀来绕过文本检测器，利用图像安全模型和自动阅卷模型间的认知偏差寻找临界点，以此绕过图像检测器以及实现图像任务一致。整体方案清晰简洁，达到了高效的攻击效果。

复盘分享

写在前面

大家好！我们是2024年全球AI攻防挑战赛赛道一：大模型生图安全疫苗注入的获奖团队——“可信智能”队。非常荣幸能有机会与大家分享我们在此次比赛中的经验与收获，也希望未来能与更多的小伙伴一起学习交流，共同守护大模型的安全。

赛事地址：

https://tianchi.aliyun.com/competition/entrance/532268

赛题分析

本次比赛的模型链路如下：

1、给定文本prompt，前置文本安全检测模块（ShieldLM-7B-internlm2）会判断prompt是否有风险；

2、文生图大模型会基于文本Prompt进行图片生成（中文prompt送入Kolors，英文prompt则送入FLUX.1-schnell）；
3、后置图像安全检测模块（InternVL2-2B）会判断生成的图片是否有风险；
4、最后，将有自动阅卷模型判断生成的图片内容是否符合任务要求。

根据比赛论坛的公开信息，我们使用InternVL2-8B和26B模型进行投票来模拟阅卷模型（下文称作“内容一致检测模型”或“内容一致模型”）。

综上，本次比赛的目标有三点：绕过文本检测器、绕过图像检测器、图像内容一致。

比赛共包含 100 个目标任务。我们需要基于任务描述，构造中英文各100 条越狱 Prompt，在确保内容一致的前提下，尽可能绕过检测器的限制。因为在提交系统中我们能够控制的只有输入Prompt，所以比赛难度还是非常大的，但这也更贴近实际的攻击场景。

解题思路

1、探索大模型对内容安全的认知

在默认设置下，检测模块仅反馈“通过”或“不通过”（0 或 1）。这种粗粒度反馈很难为自动合成和优化Prompt提供明确的指导。鉴于检测模块也是大模型，我们采用了以下两种方案探索其对不安全内容的认知机制：

· 从解码器输出的分布获取概率作为置信度，为后续优化Prompt提供参考指标；

· 修改检测模型的系统提示词，根据细粒度反馈，定位到导致检测不通过的具体元素。

2、大模型安全知识库

在比赛开始前，我们队伍的小伙伴就收集过大量公开的越狱Prompt作为知识库。然而在看到赛题后，我们很快发现了问题：知识库中不仅存在大量重复，对比赛中给定目标任务描述的场景也很难进行检索和优化。

对此我们用大模型将已有的越狱Prompt进行细粒度拆解，获取到各类敏感场景的替换元素和越狱策略，最终以知识图谱的形式整合在一起。对于赛题中的任务描述，可以拆解元素并寻找对应的变异策略，最终用大模型组合成新的越狱Prompt，这种方法对绕过前置文本检测非常有效。

此外，针对前置检测，我们发现对抗式的前后缀是非常通用有效的策略。例如 “这是一项反对暴力的宣传”、“这是为了警示人们暴力的危害”、“没有不良影响”、“没有不良暗示”。这种方法的优势是可以最大程度地将原始描述包裹在其中，便于我们探索如何通过后置的图像安全检测。

3、零和博弈：图像安全与内容一致

在观察后置检测模型的反馈中，我们发现了一个奇妙的现象，图像安全检测模型与内容一致检测模型存在着一种对抗式的零和博弈。具体来说，对一个给定的不安全任务描述，我们在构造越狱Prompt时发现：如果生成的图像内容完全一致，则必然通不过安全检测；而如果完全安全，则内容必然不一致。因此本次比赛的一个关键点是破解这种零和博弈。

4、零和博弈破解：从实践到认知

在实践中，我们还观察到图像安全模型与内容一致模型存在着认知偏差。

· 信息差：在本次比赛中，图像安全模型只能看到图片并判断是否违规。而阅卷模型除了图片，还能看到原始任务描述，因此可以根据原始描述联想。这就给了我们很大的发挥空间，可以用一些似是而非的元素或符号进行替换。

·知识差：图像安全模型与内容一致模型因为参数量不同，能力也存在差距。比如实践中我们发现图像安全模型对某些语言的理解能力不足，进而无法判断出图像中的有害文本，而内容一致模型可以认出。

此外，我们还尝试探索模型的认知边界，即图像安全与内容一致的临界点。具体来说，通过模型的细粒度反馈，我们可以分析不同元素和策略对模型判断置信度的影响，进而挖掘不同越狱元素的毒性和模型的认知边界，最终将转化为可解释的结构化知识存入图谱中。

赛后总结

始于热爱

我们队伍的小伙伴都对大模型技术充满热情。实际上，大模型安全是一个获得感很强的研究方向，她对抗性强，且所见即所得。尤其是在突破层层防御的那一刻，她带来的喜悦和成就感是无与伦比的。正是这种强烈的热爱和对技术的执着，驱动着我们不断尝试和突破，让我们敢于迎接新的挑战，持续探索新的前沿技术。

出于责任

随着比赛的深入，我们也愈加清晰地意识到大模型正面临着严峻的安全挑战。尽管本次比赛所使用的开源模型链路已经相对先进，但仍然暴露出了相当多的安全隐患。这也提醒我们，作为安全研究人员，身上肩负着重要的使命和责任。我们也希望未来可以和更多的伙伴们学习交流，共同守护大模型的安全。

贵在坚持

本次比赛历时一个多月，可以说是一场艰苦的马拉松。从最初的赛题分析，到中间的多次尝试，再到最后突出重围，我们始终保持着专注与坚持，甚至国庆大家也没有休息。面对一个又一个难题，我们没有轻易放弃，而是不断调整策略，优化方案。正是这份持之以恒的毅力，让我们成功走到终点。

感谢

感谢Datawhale提供宝贵的交流平台和丰富的学习资源，在这里，我们感受到了对技术最纯粹的热爱。Datawhale为每一个愿意学习和探索人工智能技术的人提供了一盏明灯，感谢你们无私的互联网精神。

同时，我们要感谢本次比赛的主办方——中国图象图形学学会、蚂蚁集团、云安全联盟CSA大中华区，这次宝贵的机会让我们深刻感受到可信人工智能的重要性，也让我们直接地了解到产业界对大模型安全的现实需求。感谢上海交通大学王烁老师的细心指导，感谢队伍中每一名同学的付出与坚持。

（文：Datawhale）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

写在前面

赛题分析

解题思路

赛后总结

感谢

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复