对抗攻防新作之二:Towards deep learning models resistant to adversarial attacks

Madry等(2018)提出一种能有效抵御一阶对抗攻击的防御方法,该方法从优化的角度研究神经网络的对抗鲁棒性,为之前对抗训练防御方法提供了大一统的视角。同时,该方法还明确了防御各种对抗攻击所需要的具体安全保证。除此之外,该方法还包含了生成对抗样本的方法,因此该方法也可以用来攻击目标模型。由于该方法使用投影梯度下降(Projected Gradient Descent, PGD)来优化生成对抗样本的目标函数,因此下文将称该方法为投影梯度下降优化方法。

标准的分类问题大都是通过经验风险最小化(Empirical Risk Minimization,ERM)来优化参数从而得到适合问题的模型,但经验数据往往只占样本空间的极小部分,使得ERM通常不能产生具有鲁棒性的模型。为了保证模型面对对抗攻击的可靠性,之前的很多方法都是强调模型对某一类攻击的鲁棒性,这使得模型的防御能力非常片面。投影梯度下降优化方法首次提出对抗鲁棒模型所需要满足的具体要求。

本文以公式的形式给出了鲁棒模型的所需要满足的条件。该公式的鞍点问题由内部的最大化和外部的最小化两个问题构成。内部的最大化问题旨在找到实现最大损失的数据 的扰动,这实际上是攻击问题,满足最大化条件的样本有很大的概率是对抗样本。外部的最小化问题旨在找到模型的参数使得攻击的对抗损失最小,这实际上是训练鲁棒分类器的问题。其次,鞍点问题给出了理想的鲁棒模型所需要达到的确切目标,也就是衡量鲁棒性的标准。

实验证实投影梯度下降方法找到的局部最大值的损失都是差不多的,不管是正常的网络还是对抗训练的网络。这说明由投影梯度下降对抗实现的鲁棒性对其他一阶对抗方法(即依靠一阶导数进行对抗攻击的算法)是有效的。当然,投影梯度下降方法并不能排除一些孤立的局部极大值,但实验显示,即使通过很多次随机初始化也不能找到差别很大的损失值,也就是说这些局部极大值很难通过一阶方法找到。和现代密码学类似,实现对抗攻击的难度也可以构建在计算量之上,当计算一个模型的对抗样本所需的计算量极大时,那么就可以认为该模型难以被攻击。

引用:

Madry, Aleksander, et al. “Towards deep learning models resistant to adversarial attacks.” arXiv preprint arXiv:1706.06083 (2017).