利用图像文本的知识蒸馏来进行开放词表目标检测
来源: 联汇研究院
作者: 联汇科技
2022-09-30
0
■ mdetr:一个端到端的多模态理解模型
■ paper :mdetr - modulated detection for end-to-end multi-modal understanding
主要作者:aishwarya kamath, mannat singh, yann lecun, gabriel synnaeve, ishan misra, nicolas carion
■ 导语
常见的多模态推理系统非常依赖一个预训练的目标检测器去从图像中提取区域特征。作者指出这样一个关键的图像特征提取模块往往是一个“黑盒子”,它独立于多模态推理系统而自己单独训练,并且在训练中也只是于一个固定词表的类向量上训练(如coco80类,vg1600类,都只是一个有限的类别)。这导致了多模态系统在长尾数据集上进行推理的时候不能有效掌握一些稀疏类的视觉特征。因此,作者针对这个问题,提出了他们的可调整目标检测器(modulated detector,纵观全文,modulated一词应该是在强调mdetr只要稍微调整一下结构,就可以适应不同的下游任务,所以笔者将其译成“可调整的”),这是一个端到端的检测器,输入一个图像文本对,可以在图像中检测到文本中提到的关键物体,文本可以是对图像的一个描述,也可以是一个关于图像的问题。作者在130万的图文对上对模型进行了预训练,并在若干个下游任务上微调模型,在这些任务上均取得了sota的成绩,并且在最后作者对该模型在给定标签类别的目标检测任务上进行了few-shot的评估。
■ 简介
作者首先提出在现有的许多多模态推理系统中(paper中举的两个例子是oscar和uniter),目标检测器是其中必不可少的一环,目标检测器在一个固定类别的词表上进行目标检测的预训练,然后多模态系统推理时,目标检测器检测一张图片中的视觉特征,再将这些特征输入到多模态编码器的图像部分,与编码器的文本部分一起送入编码器中进行多模态融合。作者认为这种方法限制了文本特征与图像特征的共同训练,目标检测器在多模态编码器的训练过程中是冻住的,并不能根据多模态训练中的损失函数来调整自己的参数以变得让自己的性能更好,更适合多模态任务。另外,传统的目标检测器也限制了检测到的物体和属性的数量(只能检测出词表中有的物体和属性),这也一定程度上限制了多模态推理系统的性能。
因此,本文的作者基于detr,提出了一个端到端的可调整检测器mdetr,结合训练数据中的自然语言理解来执行目标检测任务,真正实现了端到端的多模态推理。在训练过程中,mdetr将文本和检测框的对齐作为一种监督信号。因此,不同于现有的大多数目标检测器,mdetr可以检测出文本中那些细微的概念,并且将其泛化至未见过的属性和物体的结合,比如下图,训练过程中模型并未见过“粉色的大象”(现实世界中也不存在“粉色的大象”),但是却可以将“粉色”和“大象”两个概念结合到一起。
■ 预训练
图像端,mdetr通过一个cnn来抽取图像特征,之后将其展平并加上一个2d位置向量用以注入位置信息。文本端,mdetr使用了一个roberta结构的预训练文本编码器。然后通过一个线性映射层将文本特征与图像特征投影到一个语义空间,两个经过投影之后的特征向量经过连接送入一个transformer中,transformer分为encoder和decoder,encoder对两个模态的信息进行跨模态自注意力融合,decoder方面效仿detr,在输入端给出一个query,去和encoder输出的信息进行cross attention,decoder的输出用以预测每个物体的bounding box。
soft token prediction loss。与传统的目标检测不同,mdetr并不关注所有可能从图像中获取的对象,它只对从文本中抽取出来的token span感兴趣。具体来说,作者首先设定任何给定句子的最大标记数是 l = 256。对于每一个与地相匹配的预测框,利用二分图匹配法,训练模型以让其预测在所有标记位置上的均匀分布与对象对应。下图展示了该例子soft token prediction loss的可视化结果。
github中该损失函数的代码
contrastive alignment loss。该损失函数用于embedding之间的对齐,对齐的对象为decoder层query的输出embedding以及encoder层的文本token输出embedding,不同于上面的soft token prediction loss,contrastive alignment loss是直接作用于特征层面的,可以有效地确保对齐的视觉特征表示和语言特征表示在特征空间上的相似程度。损失函数具体如下:
github中该损失函数的代码
■ 实验结果
上图为phrase grounding的实验结果,给定一个图像和匹配的短句,从句子中抽取出一些实体并将其的标注框标在图像上。可以看出mdetr均取得了sota的成绩。
上图为rec任务的实验结果,给定一个图像和一个指向图像中某个实体的表达式),从图像中框出这个实体的位置(如一张图像中有很多人,表达式为“woman in red”,就要从图像中框出那个穿着红衣服的女士)。可以看出mdetr相对于之前的模型均取得了sota的成绩。
上图为vqa的实验结果,作者对于vqa调整了自己的模型结构。
其中object query用于检测图像中出现的物体,qa specific query用于检测问题类型,gqa数据集中标注了五个问题类型:rel, obj, global, cat and attr。可以看出,mdetr的成绩优于lxmert和vl-t5这两个和自己使用了相同规模数据集的模型,也优于oscar这个训练数据规模远大于自己的模型。
■ 结论
这篇文章提出了一个可调整的检测器,在不同的多模态理解任务上都取得了可观的成绩,mdetr的提出让我们看到了构建一个综合的多模态模型的潜力而不只是用传统目标检测器来作为“黑盒子”。
■ 几篇关键的引用文献
[1] nicolas carion, francisco massa, gabriel synnaeve, nicolas usunier, alexander kirillov, and sergey zagoruyko. end-toend object detection with transformers. in european conference on computer vision, pages 213–229. springer, 2020
[2] kaiming he, xiangyu zhang, shaoqing ren, and jian sun.deep residual learning for image recognition. in proceedings of the ieee conference on computer vision and patternrecognition, pages 770–778, 2016..
[3] jianwei yang, jiayuan mao, jiajun wu, devi parikh, david d. cox, joshua b. tenenbaum, and chuang gan. object-centric diagnosis of visual reasoning. arxiv preprint, abs/2012.11587, 2020
[4] ashish vaswani, noam shazeer, niki parmar, jakob uszkoreit, llion jones, aidan n. gomez, lukasz kaiser, and illia polosukhin. attention is all you need. in isabelle guyon, ulrike von luxburg, samy bengio, hanna m. wallach, rob fergus, s. v. n. vishwanathan, and roman garnett, editors, advances in neural information processing systems 30: annual conference on neural information processing systems 2017, december 4-9, 2017, long beach, ca, usa, pages 5998–6008, 2017.
[5] yinhan liu, myle ott, naman goyal, jingfei du, mandar joshi, danqi chen, omer levy, mike lewis, luke zettlemoyer, and veselin stoyanov. roberta: a robustly optimized bert pretraining approach. arxiv preprint, abs/1907.11692, 2019