通过对象标签帮助语义对齐的多模态预训练模型oscar-凯发k8娱乐官网地址

通过对象标签帮助语义对齐的多模态预训练模型oscar

来源: 联汇研究院 作者: 联汇科技 2022-04-13 0

paper :oscar: object-semantics aligned pre-training for vision-language tasks

简介

受bert潮流的影响,针对视觉语言任务大规模的预训练方法正在逐渐兴起,这些方法着力于学习视觉-语言的跨模态表示,在这种多模态的表示学习中,我们希望可以把表示同一种语义的对象,无论这个对象是单词还是图像的某一部分,投影到空间中的一个统一区域,让文本与图像实现语义对齐,这是现在多数跨模态预训练任务的核心工作。然而,现存的vlp模型在多数使用场景中只是将文本特征和图像特征简单拼接在一起作为模型的输入以进行预训练,他们希望借助transformer的self-attention机制,让模型以一种暴力的手段自我学习达到文本-图像的语义对齐。本文则在多模态预训练任务中提出了“锚点”(anchor point)的概念,作者将从图像中检测到的物体标签用作文本和图像语义对齐学习过程中的“锚点”,实验表明,这种方式显著简化了学习过程。作者将这种vlp模型命名为oscar,并在六个视觉语言任务上取得了sota的成绩,任务包含:image-text retrieval、image captioning、novel object captioning、vqa、gqa、nlvr2。oscar预训练使用的数据集有:coco , conceptual captions (cc) ,sbu captions , flicker30k , gqa。
本文主要工作:(1)提出了oscar预训练方法,该方法以物体标签作为锚点来帮助学习图像文本的语义对齐,这是一种强大的vlp方法。(2)开发了基于该方法预训练获得的vlp模型oscar,在各种下游任务上取得了sota成绩,性能显著优于现有的方法。(3)针对oscar模型进行了广泛的实验和分析。

motivation

在提motivation之前,先阐述一下现存的vlp方法的缺陷,上文提到,现有的方法只是将两个模态的特征拼接起来运用self-attention去暴力地学习语义对齐,这种做法存在两个潜在的问题:
(1)ambiguity。视觉特征通常是由faster r-cnn目标检测器提取出来的一块区域,这不可避免地会导致重叠现象,即一块区域中会有多数物体重叠显示,从而导致这些物体抽取出来的图像特征产生混淆。如fig. 2(a)所示,狗和沙发两个物体有明显的重叠,那么其所生成的语义信息会十分相似,不利于在同个语义空间下区分两个物体。
(2)lack of grounding。在图像某一个区域所表示的物体和文本中的词语之间,并没有清晰的带标注的对齐信息,显然vlp是一个弱监督的学习任务。

然而,作者观察到:在图文对中,一个重要的物体,他会同时出现在文本和图像中。如fig. 2(a)中的dog和couch,这两个单词既出现在了文本中,也在图像中得到体现,并且类比人类感知世界的过程:人类通过不同的渠道认识世界,每一个渠道获得的内容都有可能是不完整的,但是一些重要的信息往往会在各个渠道都体现出来,因此我们通过这些重要的信息来帮助我们更好的完成认知过程。类似地,在vlp中,可能单个模态中的信息会有噪声,但一些重要的物体会在多个模态中同时出现。作者受此启发,想到可以将这些重复信息作为“锚点”,来帮助简化视觉语言对齐的学习任务,这即是oscar的motivation,也是其核心思想。

oscar预训练

oscar的输入是一个三元组(w, q, v),其中w是文字序列word tokens的word embedding,q是从图像中检测出来的物体标签object tags所产生的word embedding,它起到的作用就是我们上文不断提及的“锚点”,v是从图中抽取出来的图像特征的集合。如fig. 3所示。而现存的vlp模型基本都使用(w, q)作为输入。

v的抽取过程由faster r-cnn完成,由初始的2048维物体特征与6维位置信息组合成一个2054维张量,再经过一层线性投影得到最终的visual embedding。图像区域对应的物体标签,由faster r-cnn同时检测出来,并经过bert embedding处理,得到q。我们注意到,物体标签是从图像中被检测出来的,所以它包含了图像的信息,而它同时以文字的形式作为输入,且与word tokens一起经过bert的embedding层处理成为embedding序对(w, q),所以他又融合了文本的信息,正是这种特性,让它能够担当起“锚点”的职责,将图像和文本联结起来,帮助模型更好地学到跨模态语义对齐。同时,上述分别将q归为图像和文本的两种视角,正是作者设计loss函数的思路:

(1)字典视角(dictionary view)。作者对“字典”一词专门做了解释,他称字典就是一种映射关系,可以在同一个语义空间中将输入映射成向量,比如bert就是一种典型的字典,因为它定义了一个语义空间,能够让bert的任意输入的单词和句子都在这个语义空间中转换成一个对应的向量。从字典的视角看,文字序列和物体标签共用了bert的映射关系,映射为h=(w, q),在预训练过程中采取类似bert的masked token loss,随机掩盖掉15%的单词,并训练模型根据上下文及图片信息预测出masked token的能力,损失函数定义如下:

(2)模态视角(modality view)。从模态视角看,物体标签和图像特征都来自视觉模态,而文字序列则来自语言模态。作者为其设计了contrastive loss,在预训练阶段,以50%的概率将一个随机的物体标签去替换掉正确的物体标签,从而生成一些被“污染”的图文序对,然后训练模型检测是否物体标签和图像特征相匹配的能力:

最终的损失函数为二者之和。

实验结果

作者为oscar训练了base和large两个版本,均在各种下游任务上展现了良好的性能。

table 1中,sota s表示在以transformer为主体之前的vlp模型所取得的最好性能,sota b表示与bert base尺寸相当的vlp模型取得的最好性能,sota l表示与bert large尺寸相当的vlp模型取得的最好性能(uniter是目前唯一的large size的vlp模型)。
作者特别提出,oscar只使用了6.5 million的图文对来进行训练,比uniter使用的9.6million,lxmert使用的9.18million都要少很多,但是表现出来的性能却要优于二者,这再一次佐证了利用物体标签来充当“锚点”有助于视觉语言语义对齐的学习。

定性研究

作者使用t-sne对从coco测试集上学习到的语义特征进行了可视化。下图为可视化结果。

从中可以观察到:
(1)在同一个类中。在物体标签的帮助下,不同模态下的同一个物体映射到的区域之间的距离相比于没有标签的模型小很多,比如上图中的person和zebra。
(2)在不同的类之间。在物体标签的帮助下,相近语义的单词映射到的区域之间的距离被拉近,如动物(person、zebra、sheep、bird)、家具(chair、couch、bench)、交通工具(bus、train、truck、motorcycle、car)
作者还比较了有无标签所生成的caption的差别,如下图所示。可以看到,使用了物体标签显著提升了caption的颗粒度,让描述变得更加细致。

消融分析

针对标签对于不同任务性能提升的大小做了实验,在vqa、图像文本检索、图像描述三个任务上分别用no tags、predicted tags、ground truth三个模型进行对比,其中predicted tags表示使用在coco数据集上训练得到的现成的目标检测器检测到的物体标签,ground truth表示使用人工标注的真实标签。从下图可以看出,物体标签的使用有助于模型性能的提升,且收敛的速度也明显更快。

 

■ 结论

本文提出了一种全新的vlp模型oscar,采用从图像中检测出来的物体标签作为“锚点”,用以简化两个模态之间的语义对齐的学习。后续实验分析也表明了物体标签的使用对于提升模型性能是十分有帮助的。

■ 几篇关键的引用文献

[1] luowei zhou, hamid palangi, lei zhang, houdong hu, jason j corso, and jianfeng gao. unified visionlanguage pre-training for image captioning and vqa. aaai, 2020

[2] devlin, j., chang, m.w., lee, k., toutanova, k.: bert: pre-training of deepbidirectional transformers for language understanding. naacl (2019)

[3] anderson, p., he, x., buehler, c., teney, d., johnson, m., gould, s., zhang,l.: bottom-up and top-down attention for image captioning and visual question answering. in: cvpr (2018)

[4] ren, s., he, k., girshick, r., sun, j.: faster r-cnn: towards real-time object detection with region proposal networks. in: advances in neural information processing systems. pp. 91–99 (2015)

[5] brown, p.f., lai, j.c., mercer, r.l.: aligning sentences in parallel corpora. in: proceedings of the 29th annual meeting on association for computational linguistics (1991)