目标检测二十年间那些事儿：加速与优化

2020-08-21 11:14

特征检测优化

特征表示的质量是目标检测的关键。近年来，许多研究人员在一些最新引擎的基础上，进一步提高了图像特征的质量，其中最重要的两组方法是：1）特征融合；2）学习具有较大接受域的高分辨率特征。

特征融合

不变性（Invariance）和同变性（equivariance）是图像特征表达，同时也是目标检测任务两个需要考虑的要素。分类任务中比较看重不变性，即不论物体出现在图像中的什么位置，都能识别出来，旨在学习到更高层中的语义信息。定位任务比较看重同变性，即希望物体在图像中进行了平移，定位的结果也应该做对应的平移，旨在判别位置和尺寸。

因为CNN网络有很多的卷积层和池化层，所以越深层的特征层不变性越强而同变性越弱，而低层网络虽然语义特征比较差，但是含有更丰富的边缘及轮廓信息。为了同时保持不变性和同变性，可以融合多层特征层。因此近三年来，特征融合在目标检测中得到了广泛的应用。

在目标检测中进行特征融合的方法有很多。本文从两个方面介绍了近年来的一些方法：1）处理流程；2）元素式操作。

（1）处理流程

目前用于目标检测的特征融合方法可分为两类：1）自底向上融合［11］，2）自顶向下融合［12］，如下图（a）－（b）所示。自底向上的融合通过跳跃连接将浅层特征前馈到更深的层，相比之下，自顶向下的融合将更深层次的特征反馈给更浅层次。除了这些方法，最近还提出了更复杂的方法，例如跨层特征编织法［13］。

由于不同层的特征图在空间维度和通道维度上都可能有不同的尺寸，因此可能需要对特征图进行调整，如将通道数量、上采样低分辨率图或下采样高分辨率图调整至合适的尺寸。最简单的方法是使用最接近或双线性插值（nearest or bilinear－interpolation）［14］。此外，分数阶条纹卷积（又称转置卷积）是近年来另一常用的调整特征图大小和调整通道数量的方法［15］。使用分数阶条纹卷积的优点是，它可以学习一种适当的方法来执行上采样本身。

（2）元素式操作

从局部的角度看，特征融合可以看作是不同特征映射之间各元素的操作。如上图（c）－（e）所示，分别有三种方法：1）对应元素的和［12］，2）对应元素的积［16］，3）元素并置［11］。

对应元素的和是执行特征融合最简单的方法。它已被频繁地用于许多最近的目标检测器。对应元素的积与对应元素的和非常相似，唯一的区别是使用乘法而不是求和。求积的一个优点是它可以用来抑制或突出某个区域内的特性，这可能进一步有利于小对象检测。特征拼接／串联是特征融合的另一种方式。它的优点是可以用来集成不同区域的语境信息，缺点是增加了内存。

通过大接受域学习高分辨率特征

接受域和特征分辨率是基于CNN的检测器的两个重要特点，前者是指输入像素的空间范围，用于计算输出的单个像素；而后者对应于输入与特征图之间的下采样率。具有较大接受域的网络能够捕获更大范围的语境信息，而具有较小接受域的网络则可能更专注于局部细节。

正如前面提到的，特征分辨率越低，就越难检测小对象。提高特征分辨率最直接的方法是去除池化层或降低卷积下采样率。但这将带来一个新的问题，即由于输出步长减小，接受域会变得太小。换句话说，这将缩小检测器的“视线”范围，并可能导致一些大型目标被漏检。

其中一种可同时提高接收域和特征分辨率的方法是引入膨胀卷积（dilated convolution），又称空洞卷积（atrous convolution）或带孔卷积（convolution with holes）。膨胀卷积最初是在语义分割任务中提出的［17］，其主要思想是对卷积滤波器进行扩展以及使用稀疏参数。例如，膨胀率为2的3x3滤波器会具有与核为5x5的滤波器相同的接受域，但只有9个参数。膨胀卷积目前已广泛应用于目标检测中，它在不需要任何额外参数和计算代价的情况下可有效提高精度［18］。

语义分割式学习

近年来的研究表明，通过学习和语义分割可以明显提高目标检测能力。

为什么语义分割可提高检测效果？语义分割提高目标检测能力的原因有三个。

1．语义分割可帮助类型识别

边缘和边界是构成人类视觉认知的基本要素。在计算机视觉中，目标（如汽车、人）和背景物（如天空、水、草）的区别在于前者通常有一个封闭的、明确的边界，而后者没有。由于语义分割任务的特征能够很好地捕捉到对象的边界，因此分割可能有助于分类识别。

2．语义分割可帮助精确定位

良好定义的边界决定了对象的基准边界框。对于一些特殊形状的物体（如一只有很长尾巴的猫），很难预测具备高交并比的位置。由于目标边界可以很好地编码在语义分割特征中，分割学习有助于准确的目标定位。

3．语义分割可嵌入进语境结构

日常生活中的物体被不同的背景所包围，如天空、水、草等，这些元素构成了一个物体的语境。整合语境的语义分割将有助于目标检测，例如，飞机更有可能出现在空中而不是水上。

语义分割如何提高检测效果？

通过分割提高目标检测的主要方法有两种：1）采用丰富的特征学习；2）采用多任务损失函数学习。

（1）丰富化特征学习最简单的方法是将分割网络看作一个固定的特征提取器［18］［19］，并将其作为附加特征集成到检测框架中。该方法的优点是易于实现，缺点是分割网络可能带来额外的计算。
（2）多任务损失函数学习另一种方法是在原有检测框架的基础上引入额外的分割旁支，用多任务损失函数（分割损失＋检测损失）训练该模型［19］。在大多数情况下，分割分支将在推理阶段被删除。优点是检测速度不受影响，而缺点是训练需要像素级的图像标注。为此，一些研究人员采用了 “ 弱监督学习 ” 的思想：他们不是基于像素级注释掩码进行训练，而是基于边界框级注释训练分割分支［20］。

这次我们对目标检测的一些加速优化技术做了介绍，下一次我们将会着重介绍目标检测的具体应用领域及未来的发展方向，敬请期待！

参考文献

［1］K． He and J． Sun， “Convolutional neural networks at constrained time cost，” in Proceedings of the IEEE conference on computer vision and pattern recognition， 2015， pp． 5353– 5360．

［2］C． Szegedy， V． Vanhoucke， S． Ioffe， J． Shlens， and Z． Wojna， “Rethinking the inception architecture for computer vision，” in Proceedings of the IEEE conference on computer vision and pattern recognition， 2016， pp． 2818–2826．

［3］X． Zhang， J． Zou， K． He， and J． Sun， “Accelerating very deep convolutional networks for classification and detection，” IEEE transactions on pattern analysis and machine intelligence， vol． 38， no． 10， pp． 1943–1955， 2016．

［4］F． Chollet， “Xception： Deep learning with depthwise separable convolutions，” arXiv preprint， pp． 1610–02 357， 2017．

［5］R． J．Wang， X． Li， S． Ao， and C． X． Ling， “Pelee： A real－time object detection system on mobile devices，” arXiv preprint arXiv：1804．06882， 2018．

［6］T． Kong， A． Yao， Y． Chen， and F． Sun， “Hypernet： Towards accurate region proposal generation and joint object detection，” in Proceedings of the IEEE conference on computer vision and pattern recognition， 2016， pp． 845–853．

［7］B． Zoph， V． Vasudevan， J． Shlens， and Q． V． Le， “Learning transferable architectures for scalable image recognition，” in Proceedings of the IEEE conference on computer vision and pattern recognition， 2018， pp． 8697–8710．

［8］Y． Chen， T． Yang， X． Zhang， G． Meng， C． Pan， and J． Sun， “Detnas： Neural architecture search on object detection，” arXiv preprint arXiv：1903．10979， 2019．

［9］C． Liu， L．－C． Chen， F． Schroff， H． Adam，W． Hua， A． Yuille， and L． Fei－Fei， “Auto－deeplab： Hierarchical neural architecture search for semantic image segmentation，” arXiv preprint arXiv：1901．02985， 2019．

［10］X． Chu， B． Zhang， R． Xu， and H． Ma， “Multi－objective reinforced evolution in mobile neural architecture search，” arXiv preprint arXiv：1901．01074， 2019．

［11］P． Zhou， B． Ni， C． Geng， J． Hu， and Y． Xu， “Scale－transferrable object detection，” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition， 2018， pp． 528–537．

［12］S． Woo， S． Hwang， and I． S． Kweon， “Stairnet： Top－down semantic aggregation for accurate one shot detection，” in 2018 IEEE Winter Conference on Applications of Computer Vision （WACV）． IEEE， 2018， pp． 1093–1102．

［13］Y． Chen， J． Li， B． Zhou， J． Feng， and S． Yan， “Weaving multi－scale context for single shot detector，” arXiv preprint arXiv：1712．03149， 2017．

［14］A． Shrivastava， R． Sukthankar， J． Malik， and A． Gupta， “Beyond skip connections： Top－down modulation for object detection，” arXiv preprint arXiv：1612．06851， 2016．

［15］M． D． Zeiler， G． W． Taylor， and R． Fergus， “Adaptive deconvolutional networks for mid and high level feature learning，” in Computer Vision （ICCV）， 2011 IEEE International Conference on． IEEE， 2011， pp． 2018–2025．

［16］T． Kong， F． Sun， A． Yao， H． Liu， M． Lu， and Y． Chen， “Ron： Reverse connection with objectness prior networks for object detection，” in IEEE Conference on Computer Vision and Pattern Recognition， vol． 1， 2017， p． 2．

［17］F． Yu and V． Koltun， “Multi－scale context aggregation by dilated convolutions，” arXiv preprint arXiv：1511．07122， 2015．

［18］Z． Li， C． Peng， G． Yu， X． Zhang， Y． Deng， and J． Sun， “Detnet： A backbone network for object detection，” arXiv preprint arXiv：1804．06215， 2018．

［19］S． Gidaris and N． Komodakis， “Object detection via a multi－region and semantic segmentation－aware cnn model，” in Proceedings of the IEEE International Conference on Computer Vision， 2015， pp． 1134–1142．

［20］S． Brahmbhatt， H． I． Christensen， and J． Hays， “Stuffnet： Using stuffto improve object detection，” in Applications of Computer Vision （WACV）， 2017 IEEE Winter Conference on． IEEE， 2017， pp． 934–943．

［21］Z． Zhang， S． Qiao， C． Xie， W． Shen， B． Wang， and A． L． Yuille， “Single－shot object detection with enriched semantics，” Center for Brains， Minds and Machines （CBMM）， Tech． Rep．， 2018．

<上一页 1 2 3