黑箱攻击是指攻击者在无法获取机器学习模型内部结构、参数及训练数据等详细信息的情况下,仅通过模型的输入和输出,来生成对抗样本以误导模型做出错误预测的攻击方式.以下是其相关介绍:
主要类型
- 基于迁移的攻击:利用在一个模型上生成的对抗样本对其他模型进行攻击,需找到模型间的共性和迁移性,攻击成功率不确定,访问次数少,约10次左右.
- 基于访问的攻击:通过大量查询模型获取输入输出信息来生成对抗样本,可细分为基于分数的攻击和基于决策的攻击。基于分数的攻击需获得连续预测分数,不适用于多数现实场景;基于决策的攻击则完全依赖模型最终决策,更贴合实际,如演化攻击就是一种高效的基于决策的黑箱攻击方法.