OpenAI提出Image GPT实现高质量图像补全和样本生成

2020-07-17 10:13

实现方法

研究人员分别在ImageNet上训练了大中小三个GPT－transformer模型，分别包含了1．4B，455M，76M的参数。同时还利用ImageNet和网络数据共同训练了包含6．8B参数的iGPT－XL，由于长序列训练需要消耗非常大的计算资源，所有的训练都在较低的图像分辨率上进行（32x32，48x48，64x64）。

虽然研究人员尝试在更低的分辨率上继续减小计算资源的消耗，但先前研究认为人眼的识别分类能力会随图像尺寸的减小而迅速变弱。在先前显示模型研究的启发下，构建了9－bits的颜色表示模式，可以用较为真实的编码颜色同时代替RGB三个通道。

实验结果

研究人员使用了两种方法来评测模型的分类性能。第一种类似一个线性探测器，利用训练好的模型从图像中抽取特征进行分类，随后用逻辑回归拟合图像的标签。另一种方式是在下游任务数据上对整个模型进行调优。为了抽取特征，在某些层的输入添加了layernorm注意力模块，并在序列维度上使用了平均池化。为了调优模型，研究人员使用了layernorm transformer的输出，并在序列维度上进行平均池化来作为分类部分的输入。

由于针对序列中下一个像素的预测与图像分类并没有明显的关系，最后层的特征对于目标分类并不是最好的。从结果中可以看出一开始特征质量在迅速提升，而后随着深度的增加缓慢减小。这一现象表明transformer生成模型在运行中有两个显著的阶段，在第一阶段每个位置从它周围的上下文中获取信息以构建出有效的的图像特征；而后在第二阶段上下文特征被用于解决下一个像素的条件生成问题。在这种线性探测器下观测到的两阶段现象很容易让人联想到具有约束结构（bottleneck）的自编码器，其中间层就是手动设置用于特征抽取的结构。

特征质量与层深度具有明显的相关性，与监督模型不同，生成模型特征质量最高的位置来自于模型网络的中间部分。

随后的实验结果还显示了生成模型性能和特征质量之间的关系，研究发现随着模型规模的训练迭代的增加，生成模型的性能也会逐步增加，并直接反映在更好的特征质量（分类精度）上。

图中每条线都代表了不同的生成预训练模型在不同迭代下的结果。正的斜率表明生成模型的特征质量随着训练次数的增加而不断提高，更大的模型也显示出了更好的结果。

当研究人员在CIFAR－10， CIFAR－100， STL－10数据集上测评模型性能时，可以看到提出的方法超过了所有的监督和非监督迁移算法，同时也超过了完全调优情况下的结果。

线性探测器和调优方法的精度比较，这些方法使用了监督或非监督的ImageNet迁移。结果中也包含了CIFAR上最好的端到端模型AutoAugment方法。

在不同的设置下，与不同的监督、非监督方法进行了比较。训练的图像分辨率为48x48，iGPT－L的特征维度为1536，实现了65．2％的top－1精度，已经超越了AlexNet的性能。

典型的特征维度一般都是8192维度，但训练如此庞大特征的iGPT模型非常耗时，所以研究人员将最后基层的特征叠加起来作为8192维的近似。但由于iGPT中的特征在不同层间存在相关性，所有需要更多的维度才能获得更具竞争力的效果。最终的设置使用了来自5层上的15360维的特征，实现了72％的top1精度，超过了AMDIM， MoCo， CPC v2等算法，但和最好的SimCLR还有一定的差距。

<上一页 1 2 3 4 下一页> 余下全文