谷歌公布新研究BiT探索大规模数据如何影响预训练模型性能

2020-05-28 11:28

计算机视觉的研究人员在利用现代深度神经网络解决问题时常常会无奈地感受到其对数据的庞大需求，当前很多先进的CNN模型都需要在像OpenImages和Places这样包含上百万张标注图片的数据集上进行训练。然而对于很多领域的应用来说，收集如此海量的数据其时间和经济成本几乎是常人无法承受的。

为了解决计算机视觉领域缺乏数据的问题，人们提出了预训练模型的迁移学习方法，通过在大规模的通用数据上进行预训练而后再复用到目标任务上，用少量数据对模型进行适应性调优。

尽管预训练模型在实践中十分有效，但它仍不足以迅速地在新场景下掌握概念并进行深入的理解，在工程实践中还面临着一系列问题。由于大规模的预训练使得BERT和T5等方法在语言领域取得了巨大的进展，研究人员坚信大规模的预训练可以有效提升计算机视觉任务的性能。

为了充分研究大规模预训练和迁移学习的内在机理和规律，来自谷歌的研究人员发表了一篇名为BigTransfer的论文，探索了如何有效利用超常规的图像数据规模来对模型进行预训练，并对训练过程进行的系统深入的研究。研究人员发现，随着预训练数据的增加，恰当地选择归一化层、拓展模型架构的容量对于预训练的结果至关重要。

在有效的调整和训练后，这种方法展示了多个领域的视觉任务上展现了前所未有的适应性和先进的性能，包括小样本是识别任务和最近提出的真实数据基准ObjectNet上都取得了非常优异的成绩。

预训练

为了探索数据规模对于模型性能的影响，研究人员重新审视了目前常用的预训练配置（包括激活函数和权重的归一化，模型的宽度和深度以及训练策略），同时利用了三个不同规模的数据集包括：ILSVRC－2012 （1000类128万张图像）， ImageNet－21k （2．1万类的1400万张图像）和 JFT （1．8万类的三亿张图像），更重要的是基于这些数据研究人员可以探索先前未曾涉足的数据规模。

研究人员首先探索了数据集规模和模型容量间的关系，选择了ResNet不同的变体进行训练。从标准大小的“R50x1”到x4倍宽度的，再到更深度152层“R152x4”，都在上面的数据集上进行了训练。随后研究人员获得了关键的发现，如果想要充分利用大数据的优势，就必须同时增加模型的容量。

下图左半部分箭头开头的扩大显示了这一结论，数据量增大的情况下容量更大的模型性能增加更大，而容量小的模型反而会有一定程度地下降。