700字范文 > 李宏毅机器学习笔记--12 attack ML models

李宏毅机器学习笔记--12 attack ML models

时间：2020-03-09 10:54:37

摘要一、图像模型的攻击1.1原理1.2Constraint1.3参数训练1.4一个例子1.5攻击方法1.5.1FGSM(Fast Gradient Sign Method)1.6黑盒攻击1.7拓展研究1.7.1普遍对抗攻击(Universal Adversarial Attack)1.7.2对抗性重新编程(Adversarial Reprogramming)1.8真实世界的攻击二、声音模型的攻击三、defense3.1被动防御3.1.1feature Squeeze(功能挤压)3.1.2Randomization at Inference Phase(推理阶段的随机化)3.2主动防御总结

摘要

机器学习不仅要用在研究上，更多的肯定要在各种有意义的实际应用中。因此model仅仅是对杂讯(噪声)robust和大部分时间work是不够的，还要去对抗恶意攻击(注意，这里不是说仅仅是对抗杂讯，而是所谓的，不暴露出弱点)。因为在垃圾邮件识别，人脸识别这种最基础广泛的领域，也存在着大量的攻击对抗。因此，对这方面的研究是十分重要的。

一、图像模型的攻击

1.1原理

在一个训练好的模型上，对输入的图片加上特制的噪声，这个网络模型会得到一些不同的答案。

训练的时候，我们的x是不变的，从而获得我们的θ；而在训练攻击图片的时候，我们是不改变模型本身的参数的，我们是固定住了θ ，而训练的是x。

攻击达到的效果根据我们应用的不同也分两种：

1、Non-targeted Attack：只要求最后的结果越不对越好，不要求结果最后错成什么样子

2、 Targeted Attack：在最后的结果越不对越好的基础上，还要求结果最后机器很确信的把某个我们希望的错的误认为对的

如下图所示，第一种就是最后认为不是猫即可，而第二种就是最后认为尽量是鱼。

![在这里插入图片描述](https://img-/0626101249677.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2d1b3hpbnhpbjA2MDU=,siz

1.2Constraint

但既然是恶意攻击，首先我们还是要保证，我们攻击所用的输入和原输入应该相对很接近，最起码人应该是不容易察觉的，因此我们要增加一个约束。

实际训练中我们首先要定义的就是“我们如何判断这是与原图片相似的图片”。我们设原输入是x，攻击用的图像是x^。

一般我们用的是 ∣∣x−x^∣∣∞，也就是我们看各个像素的最大差值。

使用无穷范数的原因如下图所示，对于我们人眼而言，我们一眼就能看出左面的图片和右下角图片有很大不同(绿色部分明显不同)，而很难辨识出与右上角图片的差距；虽然其实它们做差的2-范数相同。总的来说，当图片不是这么简单的时候，其实道理也还是类似的，如果有几个像素有明显的变化，我们人眼还是能轻易捕捉到的(尤其是专门去检查的话)，而整张图片每个像素都有很细微的变化，我们肉眼几乎是完全检查不出来的。

1.3参数训练

需要找出损失参数最小并且距离x0尽可能小的x*，可以用梯度下降的方法进行学习，但是会出现一个问题，那就是我们会出现到达的点在范围外的情况，因此我们需要进行额外的操作。

而这个操作，反正就是一种把所谓的外面的点拉回来的方式。相对来说最靠谱的就是，拉到距离之前的点最近的边界上（连接两个点，与之交接处就是应该拉到的点）。下面的图片就是针对2-范数和无穷范数的情况。

1.4一个例子

输入一张猫的图片，让他认为是海星。

但是肉眼观察不出任何差别，所以做一个减法，可能差别非常小，所以乘以50，因为这个网络是50层的。可见这两张图片确实有微小的差异，这个微小的差异足以骗过网络，让他认为右边的图片是海星。

如果说猫和海星有一些相似之处，都是生物。那么也可以让猫变成键盘。

如果不加入特制的杂讯，而是随机加入一些，网络可能不会被骗。

那么到底为什么出现这种结果呢？

x0随机移动，多数时候，在该点附近，网络判断为tiger cat的confidence很高

首先这是一个很复杂的神经网络，最后边界的情况是十分复杂扭曲的；而且输入的维度是十分十分大的，至少都有上千维。有某些神奇的方向会出现这种现象：只要稍微推一点，预测为某个不相干的东西的confidence就会很高。在一个置信度较高的点的邻域内，只要我们找到哪怕一个方向上出现了置信度变低很多的情况，那就会被这种方式攻击顺着这个方向从而找到弱点。

因此可以说，相当于就类似，要想完全的防住这种攻击，那么就要求邻域内任何地点都要有足够的置信度，这要求显然太高了(越高维越困难)且本来也不一定正确。