谷歌提出Context R-CNN, 利用时域上下文信息的增强目标检测系统

2020-07-06 16:05

生态问题刻不容缓的今天，有效的生态系统监测能够帮助研究人员更好地提出环境保护措施。静态捕捉相机就是放置在野外环境中的最具代表性的一种监测传感器。然而，对于广泛应用的静态相机来说，自动地分析处理还面临着一系列的挑战。

由于静态相机的拍摄场景固定，拍摄图像中的背景异常重复，因此没有足够充分的数据多样性，机器学习模型将倾向于学习背景，使其在新场景下缺乏足够的泛化性。为了解决这一问题，来自谷歌的研究人员提出了一种基于时域上下文的互补方法Context R－CNN，提升了目标检测模型在全新相机设置场景下的泛化性。

有效的生态系统监测将帮助研究人员更好的理解全球生态系统的动力学行为、物种多样性、量化人类活动和气候变化的影响，并提出有效的保护措施。为了获取高质量的数据提高监测效率，生态学家耗费了大量的努力在野外环境中放置检测传感器，而静态捕捉相机就是其中最具代表性的一种。

随着传感器监测网络的逐渐发展壮大，对于全球范围内生物多样性数据的手工分析变成了全球实时生态精确监测的瓶颈所在。虽然有多种基于机器学习的自动化分析方法，但对于广泛应用的静态相机来说，自动地分析处理还面临着一系列的挑战，包括功耗和存储限制、采样率较低、运动触发造成的非规则拍摄结果等。

为了有效处理野外静态相机的拍摄结果，计算机视觉模型必须对各种情形下的目标具有足够的鲁棒性，包括偏离中心、离焦、低光照、尺度变化剧烈等等。此外静态相机最大的不同在于它的拍摄场景固定，这会使拍摄图像中的背景异常重复。没有足够充分的数据多样性，机器学习模型将倾向于学习背景，使其在新场景下缺乏足够的泛化性。

机器学习和生态学界的研究人员已经携手完成了像LILA BC 和 Wildlife Insights 等大规模的专家标注数据集，这些数据来自于多个研究团队在不同场景下的相机拍摄结果以提升数据的多样性。但数据的积攒需要大量人力物力并且进展缓慢，同时在顾及多样性、世界范围内代表性数据和物种分类的要求下变得异常繁杂。

这张清晨浓雾中的野外图像几乎什么都看不清，为自动分析带来了十分巨大的挑战。

为了解决这一问题，来自谷歌的研究人员提出了一种基于时域上下文的互补方法Context R－CNN，提升了目标检测模型在全新相机设置场景下的泛化性。新型的目标检测架构通过提取每个相机在时间维度上的上下文线索来改善新场景下的目标识别效果，而无需额外的来自多个相机的训练数据。在面对复杂图像时，上下文R－CNN方法可以从同一相机从长达一个月的上下文信息中回溯出最为相关的目标并帮助算法进行识别。

1 2 3 下一页>