对抗攻击(Adversarial Attack)
一、定义
对抗攻击是指在机器学习和人工智能领域,攻击者通过在原始数据(如图像、文本等)中添加精心设计的微小扰动,使得机器学习模型(如分类器、目标检测器等)产生错误的输出。这些扰动通常是人眼难以察觉或者在正常的数据变化范围内,但却能有效地误导模型。
二、攻击原理
(一)基于梯度的攻击方法
- 快速梯度符号法(FGSM)
- 原理:这是一种简单而有效的攻击方法。它基于模型对输入数据的梯度来计算扰动。对于一个分类模型,假设输入数据为(x),模型的输出为(y = f(x)),损失函数为(L(y, t))(其中(t)是真实标签)。FGSM通过计算损失函数...