■ paper:align before fuse: vision and language representation learning with momentum distillation
■ 简介
大规模的视觉和语言表示学习在许多vision-language任务上取得了很大的进步。现有的方法大多用一个以transformer为基础的多模态编码器来联合建模视觉特征和文本特征。
然而,视觉特征和文本特征在语义空间上并不是对齐的,这就导致多模态编码器很难学习图像-文本的交互。本文提出了一种对比损失,能够在图像和文本表示融合之前先将它们对齐。不同于大多现有的方法,albef方法既不需要对图像数据进行标注,也无需高分辨率的图像。为了更好地对噪声数据进行学习,作者还提出了动量蒸馏,能够从动量模型的伪目标中学习。
albef在许多下游vision-language任务上取得了sota性能。在图像文本检索任务上,albef取得了比在数量级更大的数据集上进行训练的clip和align更好的效果。在vqa和nlvr^2上,albef相较于sota取得了2.37%和3.84%的改进,同时速度也更快。
■ albef基本框架
albef包含一个图像编码器、一个文本编码器和一个多模态编码器。作者将一个12层的视觉transformer vit-b/16[1]作为图像编码器,并通过在imagenet-1k上预训练的权重对图像编码器进行初始化[2]。
■ 预训练任务
作者在三个目标任务上进行预训练,分别是:(1)图像文本对比学习(itc)(2)图像文本匹配(itm)(3)掩码语言建模(mlm)。作者在单模态编码器上进行itc和mlm训练,在多模态编码器上进行itm训练。
1. 图像文本对比学习(image-text contrastive learning)
图像文本对比学习的目的是在融合前学习更好的单模态表示。它学习了一个相似度函数:
2.掩码语言建模(masked language modeling)
掩码语言建模同时利用了图像和上下文文本来预测被掩盖的词。作者以15%的概率随机掩盖输入的token,并用特殊token[mask]来替换它们。
3.图像文本匹配(image-text matching)
图像文本匹配预测了一对图像文本对是positive(匹配的)还是negative(不匹配的)。作者使用了[cls] token在多模态编码器的输出嵌入作为图像文本对的联合表示,然后通过一个带有softmax的全连接层来预测一个二分类的概率。itm的损失函数定义如下:
作者提出了一种对itm任务进行hard negatives采样的策略。当负样本的图像文本对有相同的语义但在细粒度细节上不同,那么该样本是难样本。作者通过对比相似度寻找batch内的 hard negatives。对于一个batch中的每一幅图像,作者根据对比相似性分布从相同的batch中抽取一个负文本,其中与图像更相似的文本有更高的可能被采样。同样的,作者还为每个文本采样一个hard negative图像。
■ 动量蒸馏
用于预训练的图像文本对大多都收集自网络,往往都包含噪声。因此,正样本对经常是弱相关的,即文本包含和图像无关的文字或图像包含文本中没有描述的实体。对于itc学习,图像的负样本文本可能也会匹配图像的内容。对于mlm,可能存在其他和标注不同的词能够更好地描述图像。但是itc和mlm的one-hot标签会惩罚所有负标签预测,不考虑它们的正确性。
为了解决这一问题,作者提出从动量模型生成的伪目标中学习。动量模型是一个不断发展的教师模型,包含单模态和多模态编码器的指数移动平均版本。在训练过程中,作者训练基本模型使得它的预测值和动量模型的相匹配。对于itc,作者首先使用来自动量单模态编码器的特征计算图像文本相似度,然后计算伪目标。
作者展示了伪目标中前5个候选对象的示例,有效地捕捉了图像的相关单词或文本。
■ 预训练数据集
和uniter[5]相同,作者使用了两个网页数据集(conceptual captions [6], sbu captions[7])和两个in-domain数据集(coco[8]和visual genome[9])构建预训练数据。图像总数为4.0m,图像-文本对数量为5.1m。为了证明本文的方法可以用更大规模的web数据进行扩展,作者还使用了噪声更大的 conceptual12m数据集[10],将图像总数增加到14.1m。
■ 实验
1.下游任务
作者在五个下游任务上测试了预训练模型,分别为:
(1)image-text retrieval:包含两个子任务,即image-to-text检索和text-to-image检索。
(2)visual entailment:一个视觉推理任务,用于预测一张图片和一段文本之间的关系是蕴含的、中立的还是对立的。
(3)visual question answering:给定一张图片和一个问题,预测答案。
(4)natural language for visual reasoning:预测一段文本是否描述了图片。
(5)visual grounding:定位对应于特定文本描述的图像中的区域。
2. evaluation on the proposed methods
上表展示了本文方法的不同变体在下游任务上的性能。从表中可以看出,对比基础的预训练任务(mlm itm),增加itc在所有任务上极大地提高了预训练模型的性能。前文所提到的hard negatives采样策略通过寻找更加具有信息的训练样本改进了itm。此外,添加动量蒸馏改进了itc、mlm和所有下游任务。表中最后一行表现了albef可以有效地利用更多带有噪音的数据改进预训练的性能。
3. evaluation on image-text retrieval
上表表现了图文检索微调的结果。
上表表现了图文检索zero-shot的结果。
albef取得了sota性能,取得了比在数量级更大的数据集上进行训练的clip[11]和align[12]更好的效果。考虑到当训练图像的数量从4m增加到14m时,albef有相当大的改进,作者认为它有可能通过在更大规模的图像文本对上训练进一步改进。
4. evaluation on vqa, nlvr, and ve
上表表现了本文方法和其他方法在其他理解类下游任务上的实验结果对比。在4m的预训练图片上,albef已经取得了sota的性能。在14m的预训练图片上,albef大大优于现有的方法,包括额外使用对象标签或对抗性数据增强的方法。和villa相对比,albef在vqa test-std上取得了2.37%的改进,在nlvr^2 test-p上取得了3.84%的改进,在snli-ve test上取得了1.88%的改进。因为albef是无检测器的,需要的图像分辨率更低,所以与大多数现有方法相比速度更快。
5. weakly-supervised visual grounding
上表表现了在refcoco 上的结果,albef的弱监督visual grounding效果远远超过现有的方法。
上图表现了在多模态编码器的第三层的cross-attention图上的grad-cam可视化。
上图表现了在vqa模型的多模态编码器的cross-attention图上的grad-cam可视化。
上图表现了与单个单词对应的cross-attention图上的grad-cam可视化。
值得注意的是,albef不仅定位objects,而且还定位它们的属性和关系。
6.消融实验
上表研究了不同的设计选择对图像文本检索的效果。
上表研究了文本分配(ta)预训练和参数共享对nlvr^2的影响。作者研究了三种策略:(1)这两个多模态块共享所有参数,(2)只有cross-attention (ca)层是共享的,(3)没有共享。如果没有ta,共享整个块会有更好的性能。通过ta对模型进行图像对的预训练,共享ca可以获得最好的性能。
■ 结论和影响
在将图像表示和文本表示通过一个多模态编码器融合之前,albef首先将它们对齐。作者从理论上和实验上验证了所提出的图像-文本对比学习和动量蒸馏的有效性。与现有的方法相比,albef在多个下游v l任务上有更好的性能和更快的速度。
■ 参考文献
[1] dosovitskiy, a., l. beyer, a. kolesnikov, et al. an image is worth 16x16 words: transformers for image recognition at scale. in iclr. 2021.
[2] touvron, h., m. cord, m. douze, et al. training data-efficient image transformers & distillation through attention. arxiv preprint arxiv:2012.12877, 2020.
[3] vaswani, a., n. shazeer, n. parmar, et al. attention is all you need. in i. guyon, u. von luxburg, s. bengio, h. m. wallach, r. fergus, s. v. n. vishwanathan, r. garnett, eds., nips, pages 5998–6008. 2017.
[4] devlin, j., m. chang, k. lee, et al. bert: pre-training of deep bidirectional transformers for language understanding. in j. burstein, c. doran, t. solorio, eds., naacl, pages 4171–4186.2019.
[5] chen, y., l. li, l. yu, et al. uniter: universal image-text representation learning. in eccv, vol. 12375, pages 104–120. 2020.
[6] sharma, p., n. ding, s. goodman, et al. conceptual captions: a cleaned, hypernymed, image alt-text dataset for automatic image captioning. in i. gurevych, y. miyao, eds., acl, pages 2556–2565. 2018.
[7] ordonez, v., g. kulkarni, t. l. berg. im2text: describing images using 1 million captioned photographs. in j. shawe-taylor, r. s. zemel, p. l. bartlett, f. c. n. pereira, k. q. weinberger, eds., nips, pages 1143–1151. 2011.
[8] lin, t., m. maire, s. j. belongie, et al. microsoft coco: common objects in context. in d. j. fleet, t. pajdla, b. schiele, t. tuytelaars, eds., eccv, vol. 8693, pages 740–755. 2014.
[9] krishna, r., y. zhu, o. groth, et al. visual genome: connecting language and vision using crowdsourced dense image annotations. ijcv, 123(1):32–73, 2017.
[10] changpinyo, s., p. sharma, n. ding, et al. conceptual 12m: pushing web-scale image-text pre-training to recognize long-tail visual concepts. in cvpr. 2021.
[11] radford, a., j. w. kim, c. hallacy, et al. learning transferable visual models from natural language supervision. arxiv preprint arxiv:2103.00020, 2021.
[12] jia, c., y. yang, y. xia, et al. scaling up visual and vision-language representation learning with noisy text supervision. arxiv preprint arxiv:2102.05918, 2021