强化学习成帮凶,对抗攻击LLM有了新方法
威斯康星大学麦迪逊分校团队提出了一种使用强化学习对机器学习模型实施黑盒逃避攻击的方法,该方法能够有效生成对抗样本,且无需昂贵的梯度优化。研究发现,在CIFAR-10图像分类任务上,强化学习智能体在训练过程中提高了对抗样本的有效性和效率。
威斯康星大学麦迪逊分校团队提出了一种使用强化学习对机器学习模型实施黑盒逃避攻击的方法,该方法能够有效生成对抗样本,且无需昂贵的梯度优化。研究发现,在CIFAR-10图像分类任务上,强化学习智能体在训练过程中提高了对抗样本的有效性和效率。
阿里开源发布新推理模型QwQ-32B,参数量为320亿。其性能可媲美6710亿参数的DeepSeek-R1满血版。千问团队通过大规模强化学习提升了模型的推理能力,在数学和编程任务上表现优异,并提供了API使用指南。
计算机最高奖图灵奖揭晓。强化学习先驱Andrew Barto与Richard Sutton共同获奖,他们被评价为’引领基础AI技术开发的研究人员’。两位是师徒关系,Barto和他的博士研究生Sutton将马尔可夫决策过程的数学基础应用于强化学习框架中。
强化学习先驱 Andrew Barto 与 Richard Sutton 获得今年的 ACM 图灵奖。他们提出的强化学习理论为 AI 研究奠定了基础,并在机器人技能学习、网络拥堵控制等领域取得了成功。
间进行了学习,下面是整理的课程内容
课程链接:
https://hf.co/learn/nlp-co