Datawhale干货
作者:赵禹博
AI+安全的实践系列分享来了!

颁奖仪式:乌镇峰会热议AI反诈:国内首个AI大模型攻防赛收官,全球十强亮相
通过攻防双向赛道竞技,大赛最终角逐出全球十强。
赛后Datawhale邀请到了本届十强,为大家带来系列复盘分享。
今天,我们和攻击方向的Top5团队聊一聊。
赛道一出题人代表点评
“可信智能”团队制订了具有针对性的解决办法,替换风险元素和增加对抗式前后缀来绕过文本检测器,利用图像安全模型和自动阅卷模型间的认知偏差寻找临界点,以此绕过图像检测器以及实现图像任务一致。整体方案清晰简洁,达到了高效的攻击效果。
复盘分享
写在前面
大家好!我们是2024年全球AI攻防挑战赛赛道一:大模型生图安全疫苗注入的获奖团队——“可信智能”队。非常荣幸能有机会与大家分享我们在此次比赛中的经验与收获,也希望未来能与更多的小伙伴一起学习交流,共同守护大模型的安全。

赛题分析

3、后置图像安全检测模块(InternVL2-2B)会判断生成的图片是否有风险;
4、最后,将有自动阅卷模型判断生成的图片内容是否符合任务要求。
解题思路


赛后总结
感谢

(文:Datawhale)