强化学习成帮凶,对抗攻击LLM有了新方法

威斯康星大学麦迪逊分校团队提出了一种使用强化学习对机器学习模型实施黑盒逃避攻击的方法,该方法能够有效生成对抗样本,且无需昂贵的梯度优化。研究发现,在CIFAR-10图像分类任务上,强化学习智能体在训练过程中提高了对抗样本的有效性和效率。