FGSM是快速梯度符号法(Fast Gradient Sign Method)。
一、原理
在机器学习领域,特别是对抗攻击场景下,FGSM是一种用于生成对抗样本的方法。对于一个神经网络模型,给定输入样本和对应的真实标签,FGSM通过计算损失函数关于输入的梯度,然后根据梯度的符号来生成对抗扰动。
假设神经网络模型为 $f(x)$,输入样本为 $x$,真实标签为 $y$,损失函数为 $L(f(x),y)$。FGSM计算损失函数关于输入 $x$ 的梯度 $\nabla_xL$,然后生成对抗扰动 $\epsilon\cdot sign(\nabla_xL)$,其中 $\epsilon$ 是一个很小的正数,用于控制扰动的大小。最终的对抗样本 $x'$ 为原始样本 $x$ 加上这个扰动,即 $x' = x+\epsilon\cdot sign(\nabla_xL)$。
二、作用
- 评估模型鲁棒性
- 可以用来测试机器学习模型(如深度神经网络)在面对恶意攻击时的稳定性。通过FGSM生成对抗样本并输入模型,观察模型的输出结果是否发生错误分类,从而衡量模型的鲁棒性。
- 研究对抗攻击
- 作为一种简单有效的对抗样本生成方法,FGSM为研究对抗攻击的机制和效果提供了基础。它帮助研究人员理解模型的弱点,进而探索更强大的防御策略。
三、示例
在图像分类中,假设有一个能够正确分类猫的图像分类模型。使用FGSM,通过计算梯度,在猫的图像上添加微小的、人眼几乎难以察觉的扰动(比如改变一些像素的颜色值),使得模型将这张被扰动后的图像错误分类为狗或者其他类别。