Universal Adversarial Attack即通用对抗攻击,是一种针对机器学习模型的攻击方式,以下是相关介绍:
攻击原理
通过精心构造通用的对抗扰动或触发器,使模型对输入数据产生错误分类或预测,其利用了模型在训练和决策过程中的漏洞和局限性,即使对不同的输入数据或不同结构的模型,也能导致错误结果.
攻击方法
- 生成通用对抗扰动:通过优化算法找到一个对大多数输入数据都有效的固定扰动,将此扰动添加到正常输入数据中,就能误导模型做出错误分类,如在图像领域,可找到适用于多种图像的通用扰动,使模型将原本正确分类的图像误判.
- 设计通用对抗触发器:构造特定的输入模式或触发器,当输入数据包含此触发器时,模型会做出错误预测。在后门攻击中,攻击者通过在训练数据中注入带有触发器的样本,使模型学习到与触发器相关的错误关联,从而在后续含有该触发器的输入数据上产生错误分类.
特点及影响
- 普遍性:可攻击多种不同架构和训练数据的模型,不局限于特定模型结构或数据集,增加了攻击的适用范围和潜在威胁.
- 隐蔽性:生成的对抗扰动或触发器通常较为微小或隐蔽,不易被人类察觉,但能对模型产生显著影响,如对图像的微小修改或在音频中添加难以察觉的噪声,却能使模型误判.
- 风险性:在人脸识别系统中,攻击者可利用通用对抗攻击使系统误认人员身份;在自动驾驶场景下,攻击交通标志识别模型,导致车辆对交通标志的错误理解,引发交通事故.
防御措施
包括对抗训练,即让模型在训练过程中接触对抗样本以增强鲁棒性;输入预处理,如归一化、添加噪声等操作去除或削弱对抗扰动的影响;修改模型架构,如添加正则化项、使用集成模型等方式降低通用对抗攻击对模型预测的影响.