谷歌公布新研究BiT探索大规模数据如何影响预训练模型性能

2020-05-28 11:28

迁移学习

基于构建BERT过程中的方法，研究人员将BiT模型在一系列下游任务上进行调优，而在调优的过程中只使用了非常有限的数据。由于预训练模型已经对视觉特征有着良好的理解，这种简单的策略已经能够取得非常优异的结果。

模型调优的过程涉及一系列超参数的选择，包括学习率、权重衰减参数等等。在这篇文章中提出了一种启发式的超参数选择方法“BiT－HyperRule”，它仅仅依赖高层次的数据集特征，包括图像分辨率和标签数量等。这种方法成功地应用到了从自然图像到医学影像等超过20个不同的任务上。

当BiT模型训练完成后，它可以使用少量数据调优就可以应用到其他的视觉任务上。

当利用非常少的样本对BiT进行迁移学习时，研究人员发现随着预训练过程中使用的数据量和架构容量的增加，所得到迁移后的模型性能也在显著增加。当在较小数据集ILSVRC上增加模型容量时，1－shot和5－shot情况下迁移CIFAR得到的增益都较小（下图中绿线）。而在大规模的JFT数据集上进行预训练时，模型容量增加会带来显著的增益（红棕色线所示），BiT－L可以在单样本和五样本上达到64％和95％的精度。

曲线描绘了五次平均运行后模型迁移到CIRAR－10数据集上的平均精度。不同架构的性能曲线表明，在大数据集上的容量更大的架构具有更为显著的数据效率。

为了进行更为广泛的验证，研究人员还在BTAB－1k上验证了BiT的性能，其中包含了19个不同的独立任务，每个任务包含1000个标注样本。通过将BiT－L迁移到这些任务上，达到了76．3％的整体分数，比先前最好的方法提高了5．8％。

下表展示了这种大规模预训练和简单迁移学习的有效性，即使是在数据量有限的情况下也得到了最好或接近最好的结果。BiT即使作RetinaNet的主干网络在COCO数据集上进行结构化的检测任务，这种大规模的预训练也能带来显著的性能提升。

左侧显示了BiT－L在不同的标准视觉任务上取得的优异结果。右侧展示了在目标检测任务的迁移性能。

值得一提的是，在所有这些迁移任务上都没有使用特殊的调参技巧，全部基于BiT－HyperRule来进行调参，在充分的数据集上进行调参甚至可以得到更好的结果。

ObjectNet上的测评

为了在更具挑战的场景下验证BiT的性能，研究人员在最近提出的ObjectNet数据集上进行了验证，这一模型更为接近真实场景，同时具有非典型的内容、视角和旋转等。受益于更大的数据和架构容量，BiT－L在这一任务上取得了令人瞩目的成就，实现了高达80％的top－5精度，超出先前最先进方法近25个百分点！