科研速递 TPAMI 2025:深度神经网络模型对抗攻击与防御平台 A³D开源发布

深度神经网络(Deep Neural Network, DNN)模型已经在各行业中广泛应用,由对抗样本引发的安全问题受到日益关注。现有对抗鲁棒性评测平台不具备自动优化模型架构或自动提升攻击性能的能力,无法深层次评估模型的鲁棒性和安全性。针对以上问题,军事科学院国防科技创新研究院智能设计与鲁棒学习研究团队(IDRL)提出了一个新颖的自动对抗攻击与防御(Auto Adversarial Attack and Defense, A³D)平台,借鉴攻防博弈思想,将攻击和防御结合到统一框架下,可以自动搜索鲁棒模型架构和高效对抗攻击方案。

相关研究成果《A³D: A Platform of Searching for Robust Neural Architectures and Efficient Adversarial Attacks》被IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI )收录,并在红山开源等平台开源发布。TPAMI作为人工智能领域最具影响力的学术期刊之一,其最新影响因子为20.8,是模式识别与人工智能领域学者的重要交流平台。

①论文地址
https://ieeexplore.ieee.org/document/10857641/
②开源代码:
https://www.osredm.com/idrl/AAAD
https://github.com/idrl-lab/AAAD

01 研究背景及简介

深度神经网络作为深度学习的核心组成部分,已经在各行业中成功应用,如人脸识别、自动驾驶等。然而,现有研究揭示了深度神经网络对于对抗样本的脆弱性。在原始输入图像上添加一些精心设计的扰动,可使深度神经网络给出错误的输出结果,其中带有扰动的图像称为对抗样本。对抗样本现象已被证明广泛存在于图像分类、目标识别、目标检测等视觉感知任务中,给深度神经网络模型的实际应用带来巨大的潜在威胁。如图1所示,一张“停止”交通标识牌图像,在添加对抗扰动之后,在人类眼中依旧是“停止”标识牌,但是能够使得人工智能模型将其识别为“限速”标识牌。如果对抗样本被用来攻击自动驾驶的感知系统,则会威胁人们的生命和财产安全。因此,由对抗样本引发的对抗攻击与防御研究成为可信赖人工智能领域的研究热点。设计高效的对抗攻击和防御算法对评估、提升深度神经网络模型的鲁棒性,促进其落地应用具有重要意义。

 图1 对抗样本示例

随着对抗攻击和防御算法研究的不断深入,学术界和工业界开发了一些评测平台,通过集成已有对抗攻击和防御算法,对模型开展鲁棒性评测和优化。然而,大部分平台仅具备特定对抗攻击或防御算法的测试功能。例如,对抗防御方面,已有开源平台仅测试特定典型网络架构模型的对抗鲁棒性,无法根据评测结果对模型架构展开优化,用户需要上传不同网络结构不断评测;对抗攻击方面,现有平台集成了已有对抗攻击算法对网络模型开展评测,无法根据评测结果自动优化对抗攻击算法,以测试该模型的极限安全性能。

为了提升对抗攻防评测效果,通过自动机器学习技术对模型网络架构和攻击组合方案开展优化搜索,提升模型鲁棒性和攻击性能,是一种有效技术途径。自动对抗攻击方面,通过基于自动机器学习的组合对抗攻击,构建攻击参数搜索空间,通过优化搜索的方式获得最优的组合攻击序列,实现了比单一攻击算法、集成攻击算法更优的对抗攻击效果;自动对抗防御方面,采用神经架构搜索(Neural Architecture Search,NAS)技术在预定义的模型搜索空间内和在一定鲁棒性评估准则下自动搜索鲁棒的网络架构。然而,已有工作在搜索空间、评估准则、搜索算法上互有差异,比较算法优劣存在一定挑战;此外,自动攻击与自动防御目前缺乏统一框架,无法在同一指标体系内进行对抗攻击与防御评测和优化迭代。

针对以上问题,研究团队提出了一个新颖的自动对抗攻击与防御(Auto Adversarial Attack and Defense, A³D)平台,可以帮助用户自动搜索到鲁棒的神经网络架构和高效的组合对抗攻击算法。平台集成了多种神经网络架构搜索方法,覆盖多种类型鲁棒性评估指标,如范数对抗攻击、语义对抗攻击、对抗伪装和可量化指标等,可实现自动搜索适配当前攻击算法的最优鲁棒网络模型架构。此外,平台提供了自动对抗攻击的数学模型,并集成了包括单目标优化、多目标优化在内的多种优化算法,可实现自动搜索适配当前网络架构的最优组合攻击方案。最后,平台将自动对抗攻击和自动对抗防御结合形成一个统一的框架,借助攻防博弈思想,不断迭代升级,一方面加固模型防御性能,另一方面增强对抗攻击性能,以提升对抗攻防效果。

02 自动对抗攻击与防御平台

框架设计

自动对抗攻防平台框架如图2所示,包括自动对抗攻击、自动对抗防御两个模块。自动攻防通过鲁棒性评估指标体系实现联动,不同类型鲁棒性评估准则可以指导自动防御中的鲁棒网络架构搜索过程,同时自动攻击搜索得到的高效组合对抗攻击可以作为新的鲁棒性评估准则,不同类型鲁棒性评估方式可视化如图3所示。

图2 自动对抗攻击与防御平台总体框架

图3 不同类型鲁棒性评估方式可视化

关键技术

自动机器学习包括设计搜索空间、确定评估准则和实施搜索策略三个主要步骤,旨在实现针对特定任务自动化设计模型和算法,减少人力设计成本,同时提高模型和算法性能。平台采用自动机器学习为核心技术实现对抗攻击与防御模块的自动化设计,其搜索空间、搜索策略和性能评估准则如表1所示。

表1 自动对抗攻击与自动对抗防御模块细节 

03 实验结果

自动对抗攻击基准实验

论文开展了一系列自动攻防实验,验证了平台的有效性。首先开展了自动对抗攻击的基准实验,如表2所示,多种优化算法能够搜索到相比人工设计攻击算法耗时更低、攻击成功率更高的组合对抗攻击。

表2 自动对抗攻击与人工设计攻击算法性能对比

* acc为模型鲁棒精度,单位为%,time为攻击耗时,单位为秒

将组合对抗攻击生成的对抗样本经过t-SNE分类可视化,如图4所示,可以看到相比人工设计的FGSM和PGD经典攻击算法,对抗样本分布更为混淆,深度学习模型更加难以分类,因此对抗样本具备更强的欺骗性。 

图4 不同对抗攻击算法生成的对抗样本可视化

自动对抗防御基准实验

如图5所示,在不同类型评估准则下,采用不同网络架构搜索算法下开展搜索,并将搜索得到的网络架构在多种类型对抗攻击算法下进行鲁棒性评估,充分探讨了不同搜索策略、性能评估准则对鲁棒网络架构搜索性能、搜索成本的影响。更详细的实验结果参见论文及其附件。

图5 不同类型鲁棒性评估下NAS搜索网络架构性能

自动对抗攻防协同演进实验

为进一步挖掘对抗攻击和对抗防御性能极限,借鉴博弈思想,基于该平台探索了自动对抗攻防协同演进的效果。如图6所示,实验发现随着自动攻击与防御的相互博弈促进,网络架构防御性能不断提升、组合对抗攻击算法攻击性能不断提升,验证了所提自动攻防框架的有效性。

图6 自动对抗攻击与防御协同进化结果

04 结语

自动对抗攻防平台能够解决现有评测平台无法优化深度神经网络架构及对抗攻击性能的不足。一方面,该平台提供自动对抗防御功能,将范数对抗攻击、语义对抗攻击、对抗伪装和可量化指标等多种鲁棒性评估方式纳入各种神经架构搜索方法中,以实现自动搜索鲁棒网络架构;另一方面,该平台提供自动对抗攻击功能,集成了多种进化算法搜索最优的组合对抗攻击序列。此外,平台首次将自动对抗攻击和防御结合成一个统一框架,实现了对抗攻防性能的协同提升。

团队介绍

国防科技创新研究院智能设计与鲁棒学习(IDRL)研究团队致力于先进无人系统智能设计优化基础前沿和多学科交叉研究,在科学机器学习与智能优化、具身智能与机器人数字演进设计、多物理场数字孪生与端上智能计算、不确定性量化与可靠性、人工智能安全防御等方向形成了系列基础理论创新成果,发展了全自主知识产权的多个开源算法库和智能辅助设计软件工具,产生较大应用价值。近5年团队发表相关学术论文100余篇,其中高影响因子SCI期刊和CCF A顶会论文80余篇。

团队招收控制科学与工程、计算机科学与技术、航空宇航科学与技术、力学等学科的硕士、博士研究生,并与国防科技大学、北京大学、北京航空航天大学、浙江大学、上海交通大学、中山大学、哈尔滨工业大学、哈尔滨工程大学、电子科技大学等高校有联合培养研究生指标,欢迎有意同学联系报考,联系方式:wendy0782@126.com。

(文:PaperWeekly)

发表评论