对抗攻防经典之一:Intriguing properties of neural networks

深度神经网络是具有高度表达性的模型,在语音识别和计算机视觉上已经取得了很大的成就。虽然深度神经网络的高表达性是它取得成功的原因,但这也会导致它学习不可解释的解决方案,这些解决方案可能会具有违反直觉的特性。这项工作提出了两个这样的属性:

(1) 首先,单个的高层神经网络单元与高层神经网络单元的随机线性组合没有区别。这表明,在神经网络的高层,语义信息是具有整体空间性的,而不仅仅是单个单元。
(2) 其次,这项工作发现深度神经网络学习的输入与输出的映射在很大程度上不是连续的,也就是说神经网络学到的表征不是连续的。

其中,第二个属性是关于神经网络输入上的微小扰动的鲁棒性。假设现在有一个在对象识别上表现非常好的深度神经网络,我们也希望这个深度神经网络的鲁棒性也非常好。好的鲁棒性是指对于输入添加比较小的扰动,神经网络依然能够正确地将输入进行分类,因为这些小的扰动并不会改变输入的类别。这些加了扰动的样本则被称为对抗样本。然而事实上,深度神经网络的鲁棒性真的很好吗?本文进行了一些实验,这个实验给定了一些图片,这些图片作为深度神经网络的输入。如下图所示,这 6 张图片被神经网络正确地分类,然而当在这些图片上加上一些扰动后,形成对抗样本,也就是右侧的图片。就人眼来看,这些图片并没有太大的变化,但是神经网络却将这 6 张图片都分类为“鸵鸟”类。也就是说,神经网络是非常脆弱的。

L-BFGS方法在AlexNet上产生的6组对抗样本,每组左图是原始样本,中间是经过10倍放大的扰动,右图是得到的对抗样本,所有对抗样本均被分类为鸵鸟,本图来自(Szegedy et al., 2013)

引用:

Szegedy, Christian, et al. “Intriguing properties of neural networks.” arXiv preprint arXiv:1312.6199 (2013).