图片一缩放，AI就把熊猫“认”成长臂猿了，这么傻的AI该如何保护？

2020-08-19 14:58

学术头条

关注

示例二：

假设你正在训练一个神经网络来识别停车标志的图像，以便以后在自动驾驶汽车时使用。

恶意攻击者可以破坏训练数据，使其包含经过修补的停车标志图像，这些图像被称为“对抗性补丁”。经过训练后，神经网络把该补丁上的所有标志与目标联系起来。

这样会导致自动驾驶汽车把一些随机的标志当作停车标志，或者更糟的是，进行错误分类并绕过真正的停车标志。

保护机器学习模型

TU Braunschweig 的研究人员在其论文中强调，因为大多数机器学习模型使用的是少数流行的图像缩放算法之一，所以图像缩放攻击对 AI 来说是一个特别严重的威胁。

这使得图像缩放攻击“与模型无关”，意思就是它们对目标人工智能算法类型不敏感，而单一的攻击方案可以应用于整个范围的机器学习算法。相比之下，经典的对抗性例子是为每种机器学习模型设计的，如果目标模型发生轻微变化，攻击极有可能不再有效。

Chen 在论文中说道：“与白盒对抗性攻击相比，图像缩放攻击需要更少的信息（只需要知道目标系统使用了何种缩放算法），所以从攻击者的角度来看，它是一种更实用的攻击。”“然而，它仍然没有不需要目标机器学习模型信息的黑盒对抗性攻击实用。”其中，黑盒对抗性攻击是一种通过观察机器学习模型的输出值来产生对抗性扰动的高级技术。

Chen 接着在文章中承认，图像缩放攻击确实是一种生成对抗性实例的有效方法。但他补充道，缩放操作并不是都出现在每个机器学习系统中。他说：“图像缩放攻击仅限于基于图像且具有缩放操作的模型，但是在没有缩放操作和其他数据模式的图像模型中也可能存在对抗性实例。”对抗性机器学习也适用于音频和文本数据。

从积极的角度来看，对抗性图像缩放的单一性使得更好地检查攻击和开发保护机器学习系统的新技术成为可能。

TU Braunschweig 的研究人员在文中写道：“由于机器学习模型的复杂性，针对学习算法的攻击仍然难以分析，但定义坚挺的缩放算法结构使得我们能更全面地分析缩放攻击并开发有效的防御技术。”在他们的论文中，研究人员提供了几种阻挠对抗性图像缩放攻击的方法，包括平滑核函数的权重缩放算法以及可以消除篡改像素值影响的图像重建过滤器。

“我们的工作为机器学习中预处理的安全性提供了新的见解，”研究人员写道。“我们相信，有必要进行深入的研究工作，从而确定和排除数据处理不同阶段的漏洞，同时加强以学习为基础的系统的安全性能。”让机器学习算法对对抗性攻击具有鲁棒性已成为近年来一个较为活跃的研究领域。对抗性实例除了用于攻击之外也被用于模型训练，以增强模型的健壮性。因此，为了进行对抗性模型训练，不同类型的对抗性攻击实施是有益的。