700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > 李宏毅机器学习课程笔记——Adversarial Attack

李宏毅机器学习课程笔记——Adversarial Attack

时间:2022-10-03 07:50:25

相关推荐

李宏毅机器学习课程笔记——Adversarial Attack

注:这个是笔者用于期末复习的一个简单笔记,因此难以做到全面详细,有疑问欢迎大家在评论区讨论

https://speech.ee.ntu.edu.tw/~hylee/ml/ml-course-data/attack_v3.pptx

I. Example of Attack

从某种角度来说,深度学习模型可以简单理解为各种各样的矩阵乘给叠在一起。以图像分类为例,输入的图像也是一个矩阵,那么,实际上就有可能对输入图像作出一些微小的数值上的修改(肉眼不可见的),但是却能造成网络(各种矩阵乘)的输出结果发生很大的变化。这个概念其实有点儿像数值计算中"解的稳定性",一个例子如下所示:

这里也可以将针对深度网络的攻击分为两类,一种是无目标的,只要让网络分类错误即可;一种是有目标的,需要让网络犯我们想要的错误。

当然,这里也很容易想到一个问题,如果深度网络确实如此脆弱的话(随便改下输入就能影响结果),那么根本就不存在所谓AI落地的说法。实际上网络对于一般的(自然存在的)干扰是鲁棒的:

例如这里在很强的噪声干扰下仍能识别出是一只猫。

II. Attack Approach

本文不讨论攻击的实现细节,只分析攻击的思路。我们知道,网络的训练过程是不断更新网络参数来降低损失函数的值,那么攻击的时候,网络参数是固定的,同样是降低损失函数的值,只不过此时变成了不断更新原始图像,而目标则可以理解为一个我们给定的新恶意label:

以此为思想的一种经典的攻击方法为Fast Gradient Sign Method (FGSM)。

III. Non-perceivable

攻击的时候有一个小细节,即被攻击的图像不能被人眼给很容易就察觉出来。说白了就是像素值的变化程度不能超过某个阈值,那么有两种具体的控制思路,一个是使用二范数控制图像整体的变动,一个是使用无穷范数控制像素的最大变动:

IV. Black Box Attack

上面提到的攻击有个隐藏前提,我们得知道网络的参数,才能进行梯度反传进而去修改图像,即属于一种"白盒攻击"。而如果网络参数未知的话,也还是有办法进行攻击的,这种我们称为黑盒攻击,一种思路如下:

比方说,如果有网络的训练数据的话(对面用的公开数据集),那么我们可以训练一个执行同样任务的代理网络,对代理网络进行攻击。由于任务相同数据集相同,那么此时梯度可能也是差不多的,从而实现从代理网络到实际网络的攻击。当然如果没原始训练数据的话这条路就行不通了。

V. Passive Defense

防御的话有些思路是十分直观的。例如,前面提到的攻击都是对图像进行一定的扰动,那么我们可以在将图片输入网络前先进行一些预处理(平滑、压缩、填充、再生成)等,这样就可以消掉图像中的恶意信息:

这么做有两个问题。首先就是由于训练的时候是没有这些“数据增强”的,因此会对模型的性能造成影响;第二就是如果这些防御措施也泄露了的话,那么攻击者可以直接把这些预处理步骤视为网络的一部分一起攻击。

VI. Proactive Defense

针对已知的攻击方法,进行对抗训练。可以简单理解为将被攻击的图片作为一种数据增强,从而提升网络的鲁棒性。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。