分类目录归档:会议论文

对抗攻防新作之二:Towards deep learning models resistant to adversarial attacks

Madry等(2018)提出一种能有效抵御一阶对抗攻击的防御方法,该方法从优化的角度研究神经网络的对抗鲁棒性,为之前对抗训练防御方法提供了大一统的视角。同时,该方法还明确了防御各种对抗攻击所需要的具体安全保证。除此之外,该方法还包含了生成对抗样本的方法,因此该方法也可以用来攻击目标模型。由于该方法使用投影梯度下降(Projected Gradient Descent, PGD)来优化生成对抗样本的目标函数,因此下文将称该方法为投影梯度下降优化方法。

继续阅读

对抗攻防新作之一:Synthesizing robust adversarial examples

在前人工作基础上,Athalye等将物理环境下的对抗样本进行了更加深入的研究(Athalye and Sutskever, 2017),探讨了2D、3D和物理世界3D这三种环境下的对抗样本的生成和有效性问题,该工作也是首次构建了能在各个视角下欺骗神经网络的现实世界3D物体。该工作提出一种通用的对抗样本生成方法,该方法生成的对抗样本在任何给定的分布下都表现出很强的鲁棒性。Athalye提出了变换期望算法(Expectation OverTransformation, EOT)这一框架,该框架用来产生在各种给定变换下都能保持对抗性的对抗样本。在标准的有目标白盒攻击情况下,对抗样本是通过最大化目标类别的似然得到的。

继续阅读