订阅
纠错
加入自媒体

谷歌公布新研究BiT探索大规模数据如何影响预训练模型性能

2020-05-28 11:28
将门创投
关注

迁移学习

基于构建BERT过程中的方法,研究人员将BiT模型在一系列下游任务上进行调优,而在调优的过程中只使用了非常有限的数据。由于预训练模型已经对视觉特征有着良好的理解,这种简单的策略已经能够取得非常优异的结果。

模型调优的过程涉及一系列超参数的选择,包括学习率、权重衰减参数等等。在这篇文章中提出了一种启发式的超参数选择方法“BiT-HyperRule”,它仅仅依赖高层次的数据集特征,包括图像分辨率和标签数量等。这种方法成功地应用到了从自然图像到医学影像等超过20个不同的任务上。

当BiT模型训练完成后,它可以使用少量数据调优就可以应用到其他的视觉任务上。

当利用非常少的样本对BiT进行迁移学习时,研究人员发现随着预训练过程中使用的数据量和架构容量的增加,所得到迁移后的模型性能也在显著增加。当在较小数据集ILSVRC上增加模型容量时,1-shot和5-shot情况下迁移CIFAR得到的增益都较小(下图中绿线)。而在大规模的JFT数据集上进行预训练时,模型容量增加会带来显著的增益(红棕色线所示),BiT-L可以在单样本和五样本上达到64%和95%的精度。

曲线描绘了五次平均运行后模型迁移到CIRAR-10数据集上的平均精度。不同架构的性能曲线表明,在大数据集上的容量更大的架构具有更为显著的数据效率。

为了进行更为广泛的验证,研究人员还在BTAB-1k上验证了BiT的性能,其中包含了19个不同的独立任务,每个任务包含1000个标注样本。通过将BiT-L迁移到这些任务上,达到了76.3%的整体分数,比先前最好的方法提高了5.8%。

下表展示了这种大规模预训练和简单迁移学习的有效性,即使是在数据量有限的情况下也得到了最好或接近最好的结果。BiT即使作RetinaNet的主干网络在COCO数据集上进行结构化的检测任务,这种大规模的预训练也能带来显著的性能提升。

左侧显示了BiT-L在不同的标准视觉任务上取得的优异结果。右侧展示了在目标检测任务的迁移性能。

值得一提的是,在所有这些迁移任务上都没有使用特殊的调参技巧,全部基于BiT-HyperRule来进行调参,在充分的数据集上进行调参甚至可以得到更好的结果。

ObjectNet上的测评

为了在更具挑战的场景下验证BiT的性能,研究人员在最近提出的ObjectNet数据集上进行了验证,这一模型更为接近真实场景,同时具有非典型的内容、视角和旋转等。受益于更大的数据和架构容量,BiT-L在这一任务上取得了令人瞩目的成就,实现了高达80%的top-5精度,超出先前最先进方法近25个百分点!

BiT在ObjectNet上的评测结果,左侧为top5精度右侧为top1精度。

结  语

本研究发现在大规模通用数据的训练下,简单的迁移策略就可以达到令人瞩目的成果,无论是基于大数据还是小样本数据甚至单样本数据,通过大规模预训练的模型在下游任务中都能取得显著的性能提升。BiT预训练模型将为视觉研究人员提供代替ImageNet预训练模型的全新选择。

<上一页  1  2  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

人工智能 猎头职位 更多
扫码关注公众号
OFweek人工智能网
获取更多精彩内容
文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号