对多模态模型的动词理解能力的探究-凯发k8娱乐官网地址

对多模态模型的动词理解能力的探究

来源: 联汇研究院 作者: 联汇科技 2022-09-26 0

paper:probing image–language transformers for verb understanding

论文地址:https://arxiv.org/abs/2106.09141
主要作者:lisa anne hendricks 、aida nematzadeh
github地址:https://github.com/deepmind/svo_probes
导语

多模态transformer模型近年来在各式各样的下游微调任务上取得了非常不错的成绩(此处的多模态模型特指图像-文本两个模态融合的模型),然而作者团队对其预训练模型学习到的图文对齐的表征能力十分好奇,尤其是动词这样的高阶语义信息,能否在transformer的结构下学习得较好。于是,作者团队收集了一个专门用于测试多模态模型动词理解能力的数据集,用于对不同类型的多模态模型的预训练表征能力的检测。这篇文章的工作与我们之前提出的vl-checklist十分类似,都是对多模态与训练模型能力的一种评测标准,本文的最后会简单对比一下二者的联系与区别。

简介

作者首先叙述了多种多模态下游任务的类型:例如图像文本检索、图像生成、视觉语言问答。然后说明模型在下游任务上的表现并不能完全衡量其多模态理解能力,比如一个针对目标检索任务的模型很有可能未能考虑到语言结构,一个针对vqa(视觉语言问答)的模型会过分依赖训练时得到的先验知识(比如对着一张苹果的图片问苹果是什么颜色的,可能模型在训练时就已经学习到苹果是红色的概率较大,所以直接回答了红色,此处并未考验到模型的图文对齐能力),这种种问题都说明了下游任务的指标不能全面地对模型的多模态理解能力做一个评价(这也是vl-checklist中所说的下游任务更像是一个黑盒测试,可解释性较差),所以作者制定了一套数据集用于对多模态与训练模型进行评测,作者称其为svo-probes(svo分别代表了subject、verb、object,即主谓宾),如下图所示
添加图片注释,不超过 140 字(可选)
如图,作者从cc数据集中收集了一些动词(作者解释到cc数据集是许多多模态模型的预训练数据集,使用cc数据集中常出现的动词可以检测模型的学习能力,就像期末考试时考的知识都来自书本一样,没有超纲的知识),并针对这些动词为其组配了相应的主语和宾语,组成了svo三元组,然后分别替换掉了其中的主语、谓语、宾语生成了三类负样本。例如:针对可以生成三个负样本,并对正样本和三个负样本各收集一张匹配的图片,用于后续检测。作者经过检测以后,得出的两个主要结论为: 1、动词相对于主语宾语更难理解; 2、模型预训练数据中的图文匹配质量好对模型的能力提升大有益处。

任务设定以及数据集收集

作者针对一句svo的句子,收集了一张与之匹配的图片作为正样本、还有若干张与之不匹配的图片作为负样本(这些图片分别描述了之前所说的svo替换掉主谓宾的三类负样本,当然有一些主谓宾替换的图片不是很好收集的情况下,作者就废弃掉这个负样本不使用,并且尽量保证替换掉动词的负样本图片是可以收集到的,因为这个实验主要是为了探究多模态模型的动词理解能力),上文也有提到,动词主要来自于cc数据集中常出现的动词集合,作者利用语法解析工具抽取出了cc数据集中的动词,并抽取出那些出现了至少50次的动词,然后再进行了一遍筛选,找出了哪些尽量可以视觉化的词语,最后,svo的动词列表里共包含421个动词。
关于图片的收集,作者使用了谷歌图片搜索引擎,如分别利用搜索引擎搜索到一系列图片,并在amt(亚马逊的一个专门受雇进行数据标注的工作站)上雇了足够数量的数据标注员对数据进行标注审查,同一对图文,由三个工作人员进行审查,若有两个及以上的人员认为他们是匹配的,那么这对图文就收录进svo数据集。之后,又由工作人员对三元组进行了扩充让三元组可以变成一个完整的描述性语句,比如被扩充成“a person jogging along the beach”或“a person jogs at the beach”。

实验结果

添加图片注释,不超过 140 字(可选)
这里的mmt指 multimodal transformer,作者指出这类模型通常有三个预训练任务:mlm、mrm和itm,分别表示mask language modeling、mask region modeling、image text matching。需要注意的是,作者这里所说的的mmt都是co-attention结构,即两个模态先单独编码,再进行多模态交融,另一种则是merge-attention(表中的merge-mmt),即一开始就进行多模态融合,表格中的query、key、value即是transformer encoder中的q、k、v矩阵,可以看出,merge-mmt的q矩阵由语言和图像的组合起来的k、v矩阵相乘而来,而mmt中语言编码器中的q矩阵则是由另一个模态编码器送来的k矩阵乘上自己的v矩阵,这就是cross-attention,在这篇文章之后的一篇多模态预训练工作albef也是采用的这种形式。作者指出mmt结构的模型有vilbert、lxmert,merge-mmt模型结构由uniter,再加上一些其他结构的模型,作者对它们进行了评测。作者在正样本集和负样本集中做了评测,评测标准是:对于一个正样本,若itm输出分数>0.5则说明正确,反之则错误,在负样本集中则相反,若imt<0.5说明预测正确,反之则错误。结果如下图所示。
添加图片注释,不超过 140 字(可选)
图中最好的结果来自no-mrm-mmt,说明mrm这个预训练任务对于模型的多模态理解能力的提升帮助不大,是可有可无的,另外,lang-mmt的结果也比mmt和merge-mmt要好,作者认为可能是attention机制让模型在训练过程中产生了过拟合,从而在这种zero-shot的任务设定下表现欠佳。此外,从图片中也可以看出来,任务难度为object
作者做了另一个实验,用以探究预训练数据对于模型能力的影响。从上表可以看出,模型对于负样本的识别能力比较弱,作者之处这可能是因为:很多模型在训练时都用到了cc数据集,它是一个从网上爬取下来的数据,相较于一些人工标注的数据集(比如mscoco),cc数据集的“噪音”较多,比如给定一张图片,和其对应的句子中可能会出现一些并未在图片中出现的物体的词语,因为此,模型在上面训练过之后,可能会造成模型认为“这些图片和文本在一定程度上是匹配的,那我就给它附一个正值吧”,所以模型更倾向于去输出比较高的预测分数。所以作者对mmt-coco和mmt-cc(分别在coco和cc两个数据集上训练出来的模型)进行了评测,结果如下。
添加图片注释,不超过 140 字(可选)
从中可以看出,mmt-coco的总体效果相较于mmt-cc略好,但是mmt-coco在判断负样本上的成绩大幅上升,作者得出结论,模型对于预训练数据的噪声不具有鲁棒性,更高质量的数据集(比如mscoco),虽然数据量不如cc,但是仍然让模型学到了更优秀的itm能力。

与vl-checklist的对比:

两个工作都是基于从“虽然多模态模型在诸多下游任务上表现出色,但是并不能很好的评价其预训练学习到的表征的能力”这一视角出发,由itm入手,各自构建了自己的评测数据集来对模型的图文对齐能力进行了探究,二者都得出了“动词理解对于多模态模型是比较困难的一个任务”这一结论,充分说明了动词作为高阶语义,对其的识别是有难度的。二者的区别如下:
(1)vl-checklist是给定一张图片,正样本是其匹配的句子,负样本是将其中的部分单词替换掉(可以替换名词、动词、形容词),然后让模型进行评价。而svo则正好相反,是给定一个句子,正样本是其匹配的图片,负样本是替换掉相应单词后的句子对应的图片(如man jump sea替换掉man为woman,就找一张woman jump sea的图片来作为负样本),笔者个人认为后一种做法无法很好地控制变量,因为作者的负样本是从网上搜索得到的,可能负样本图片确实匹配了woman jump sea这句话,但是两张图片“jump”这个动作大概率是不同的,场景中的“sea”也不尽相同,可能模型对负样本图片中的sea识别得较好,虽然也认出了图像中的woman和文本里的man不一样,但还是因为sea的识别给了比较高的分数(比如0.55),显然模型已经有认识到这是相对错误的匹配,而这在评测时会被判断成预测失败,简而言之,作者想制造一个只替换了“man”的负样本图片的话,就应该保持jump和sea的场景不变,而这,最好的方法就是抠图,把“man”所在的区域扣下来,然后再替换一个新的“woman”图片上去,这样才是严格意义上的控制变量,这在图像上的实现太过繁琐,在文本层面则容易许多,只需要替换掉部分单词即可,这也是vl-checklist的做法。
(2)svo给出的评价标准是对于一个正样本图文对,只有itm分数大于0.5算是预测成功,对于负样本图文对,itm小于0.5算是预测成功,而vl-checklist的做法是对于一幅图片,有正负样本两句话,只要itm for pos 大于itm for neg就算预测正确,因为如同上一点中所说,模型可能已经检测出有图文不匹配的现象存在,但仍然会因为对其他场景的识别给出一个大于0.5的分数,而这在svo中是会被判断为预测失败的,vl-checklist则认为只要在替换掉一个单词后,模型对同一张图片的预测分数下降,则认为模型对这个部分的识别就是到位的,可以算作预测正确,这更像是一个itc(图像文本对比)的任务。两种方法各有千秋,itm更加严苛,所以在实验结果中可以看到,负样本的评测中很多都成绩很低,很可能就是因为笔者前面说的这种现象的存在。
(3)svo使用的数据集是自己收集制作的,而vl-checklist使用的是四大公开的数据集(swig、vg、vaw、hake),svo相对来说是zero-shot的设定,对模型的检测会更加有挑战性。
(4)svo对主谓宾进行了评测,而vl-checklist则从名词、关系(动词)、属性(形容词)三个方面进行了评测,评测角度更加多样些,并且对每个方面又做了进一步的细分,如名词从物体在图像中的位置和大小分类,形容词从颜色描述(red、green)、材质描述(metal、wooden)等等分类,评测角度更加全面一些。

文献引用

[1]arjun r akula, spandana gella, yaser al-onaizan, song-chun zhu, and siva reddy. 2020. words aren’t enough, their order matters: on the robustness of grounding visual referring expressions. arxivpreprint arxiv:2005.01655. [2]yash goyal, tejas khot, douglas summers-stay, dhruv batra, and devi parikh. 2017. making the v in vqa matter: elevating the role of image understanding in visual question answering. in proceedings of the ieee conference on computer vision and pattern recognition, pages 6904–6913. [3] ravi shekhar, sandro pezzelle, yauhen klimovich, aurelie herbelot, moin nabi, enver sangineto, and raffaella bernardi. 2017. foil it! find one mismatch between image and language caption. in proceedings of the 55th annual meeting of the association for computational linguistics (volume 1: long papers). [4]piyush sharma, nan ding, sebastian goodman, and radu soricut. 2018. conceptual captions: a cleaned, hypernymed, image alt-text dataset for automatic image captioning. in proceedings of the 56th annual meeting of the association for computational linguistics (volume 1: long papers), pages 2556–2565. [5] xinlei chen, hao fang, tsung-yi lin, ramakrishna vedantam, saurabh gupta, piotr dollar, and c lawrence zitnick. 2015. microsoft coco captions: data collection and evaluation server. arxiv preprint arxiv:1504.00325.