Google发布了借由大规模预训练方法,微调出能够快速转移运用其他数据集,以解决各种计算机视觉任务的预训练模型BiT(Big Transfer),强调能更有效率地应用转移图像数据集,并获得极佳的Top-5精确度。 Google提到,虽然目前对计算机视觉研究人员来说,要让深度神经网络表现得越好,就需要用更多的标签数据进行训练,以要训练CNN为例,研究人员可能需要使用OpenImages或是Places这类数据集,以上百万的标签图像进行训练,但是对许多应用程式开发者来说有其困难度。 而预训练便是一个替代的好方法,可以先以通用的数据训练模型,而在通用数据上学习到的视觉特征,模型就能拿来重用在目标任务上,虽然这种方法在实践上相当有效,但在不同的环境中,模型仍无法快速地掌握新概念,Google表示,取自改良语言模型BERT和T5的概念,他们认为大规模的预训练可以提高计算机视觉模型的效能。 为了验证数据规模的影响,Google使用了ILSVRC-2012、ImageNet-21k和JFT三个不同规模的数据集进行实验,三个数据集内含图像数量,分别为1百多万、1千多万和3亿张,Google将这些数据集拿来训练ResNet架构,发现要让更多的训练数据发生作用,必须要同时增加模型的容量,而且训练持续时间也变得非常重要,在预训练较大数据集时,不调整运算时间,将会使得结果更糟,一旦能根据数据集调整运算配置,将会大幅改进效能。另外,Google还提到,用群组正规化代替批次正规化,也是提高效能的重要关键。 Google将BERT上在语言领域所建构的方法,拿用来调整预训练的BiT模型,Google提到,由于预训练模型已经能够很好地理解视觉世界,因此这种简单的策略非常有效。只不过有许多超参数需要微调,Google运用了启发式的超参数调校方法BiT-HyperRule,透过使用一些图像辨识率以及标签范例数量等高层级的数据特征,调整参数配置,Google成功将BiT -HyperRule应用在20多种不同的任务中。 要使用很少的范例转移BiT解决其他任务时,只要增加预训练的通用数据量,以及基础结构的容量,所产生的模型,其适应新数据的能力就越好,BiT转移处理CIFAR-10数据集,使用图片最少的数据集ILSVRC-2012所训练的模型,较其他两个数据集的精确度都差,而JFT则是使用较大的数据集在较大的基础架构预训练,明显数据效率更高。 在其他的实验也都呈现相同的结果,包括将BiT模型用到ObjectNet数据集上,Google提到,ObjectNet数据集与现实场景很像,物体可能出现在非典型的背景,并以非典型的视角和旋转呈现,而Google光使用ILSVRC-2012训练并进行微调的模型,Top-5精确度就可以达到80%,比之前最好的成果还要高25%。Google现在发布了以ImageNet-21k进行预训练的BiT-M模型,并且提到,这将可以用来代替常用的ImageNet预训练模型。 |