基于query的具有图像范围上下文信息的成对人物交互检测-凯发k8娱乐官网地址

基于query的具有图像范围上下文信息的成对人物交互检测

来源: 联汇研究院 作者: 联汇科技 2022-09-26 0
论文地址:https://arxiv.org/abs/2103.05399
作者:masato tamura, hiroki ohashi, tomoaki yoshinaga
github地址:
数据集地址:hico-det:
v-coco:

导语

本文提出了一个简单、直观而强大的方法来检测人与物体的交互(hoi)。hoi在图像中的空间分布非常多样,以至于现有的基于cnn的方法面临以下三个主要缺点: 1)由于cnn的位置性,他们无法利用图像范围的特征; 2)他们依赖于手动定义的感兴趣的位置来进行特征聚集,这有时不能覆盖上下文重要的区域; 3)如果多个hoi实例位置接近,他们会将这些特征混合起来。 为了克服这些缺点,作者提出了一种基于transformer的特征提取器,其中注意力机制和基于查询的检测器起着关键作用。注意力机制在聚集图像范围内上下文相关的重要信息方面是有效的。此外,作者将查询设置为每个查询最多捕获一个human-object对,这样可以避免混淆来自多个实例的特征。这种基于transformer的特征提取器能够输出有效的嵌入,使得后续的检测头可以相当简单和直观。

介绍

近年来,人与物体的交互(hoi)检测因其在更深层次的场景理解中的潜力而吸引了许多兴趣。给定一幅图像,hoi检测的任务是定位人体和物体,并识别它们之间的相互作用,通常表示为< human bounding box, object bounding box, object class, action class>。
传统的hoi检测方法可以大致分为两种类型:两阶段方法和单阶段方法。在两阶段方法中,首先通过现成的目标检测器分别定位人和物体,然后使用来自定位区域的区域特征来预测动作类别。为了结合上下文信息,通常会利用辅助特征,例如来自人和物体边界框的联合区域的特征,以及图像中边界框的位置。单阶段方法使用启发式定义的位置的特征来预测交互,例如人类和物体中心之间的中点。
添加图片注释,不超过 140 字(可选)
虽然两阶段和单阶段方法都有很大改进,但是它们经常由于卷积神经网络(cnn)的性质和使用cnn特征的启发式方法而出现错误。图1 显示了传统方法的典型失败案例。在图1(a)中,我们可以很容易地从整个图像中识别出一个男孩正在洗车。然而,两阶段方法很难预测动作类“wash ”,因为它们通常只使用裁剪的边界框区域。这些区域有时会错过在人体和物体边界框的外面的重要线索。例如图1(a)中的水管。尽管联合区域的特征可能包含这样的线索,但是这些区域经常被诸如背景和不相关的人和物体之类的干扰内容所影响。图1(b)显示了多个hoi实例重叠的示例。在这种情况下,基于cnn的特征提取器被迫在重叠区域捕获两个实例的特征,最终得到被污染的特征。基于污染特征的检测容易导致失败。单阶段方法试图通过在特征提取的早期阶段将目标人和对象配对并提取综合特征来捕捉上下文信息,而不是单独处理目标。为了确定从中提取综合特征的区域,它们依赖于启发式设计的感兴趣位置,例如人和对象中心之间的中点。然而,这种依赖有时会导致问题。图1(c) 显示了一个目标人和目标物位置不同的例子。在这个例子中,中点位于中间的人附近,该人与目标hoi实例无关。因此,很难基于中点周围的特征来检测目标。图1(d)就是多个hoi实例的中点彼此接近的例子。在这种情况下,基于cnn的方法会由于与图1(b)中失败的原因相同的原因(即受污染的特征)而倾向于做出错误检测。
为了克服这些缺点,作者提出了qpic,一种基于查询的hoi检测器,它利用图像范围的上下文信息以成对的方式检测人和物体。qpic有transformer作为关键组成部分。qpic中使用的注意力机制扫描图像的整个区域,并且期望根据图像的内容选择性地聚集上下文重要的信息。此外,作者设计了qpic的查询,使得每个查询最多捕获一个human-object对。这使得能够在不污染多个hoi实例的情况下单独提取这些实例的特征,即使这些实例的位置很近。注意力机制和基于查询的成对检测的这些关键设计使得qpic即使在困难的条件下也是鲁棒的,例如上下文重要信息出现在人类和物体边界框之外的情况(图1a),目标人和物体位于远处(图1c),以及多个实例彼此靠近(图1b 和d)。

方法

考虑到图像范围的上下文信息,为了有效地提取每个hoi实例的重要特征,作者提出利用基于transformer的架构作为基本特征提取器。作者首先在2.1节介绍了整体架构,并表示后续的检测头由于在基本特征提取器中获得了丰富的特征而可以简化。在2.2节,作者给出了训练中损失函数的具体表达式。最后,作者解释给定一个新的图像如何使用该方法来检测hoi。

2.1 overall architecture

添加图片注释,不超过 140 字(可选)
注意,a不一定是独热向量,因为可能有多个动作对应于一个human-object对。交互检测头由四个小的前馈网络(ffn)组成: human-bounding-box ffn fh, object-bounding-box ffn fo, object-class ffn fc,以及action-class ffn fa,每个网络分别用于预测上述四个向量中的一个。需要注意的一点是,与许多现有的方法不同,让一个查询直接将人和物体作为一对来更有效地提取交互的特征是很关键的。

2.2 loss calculation

损失计算由两个阶段组成:预测和ground truth之间的二分匹配阶段,以及匹配对的损失计算阶段。
对于二分匹配,作者遵循detr的训练过程并使用匈牙利算法。作者首先用φ(no pairs)填充human-object对的ground truth集合,让ground truth集合的大小变为nq。
添加图片注释,不超过 140 字(可选)
此外,作者用两个元素的加权平均值和非零元素的逆来表示它的权重,而不是用普通的平均值。由于正action classes的数量远少于负action classes的数量,平衡两种损失的影响是很有必要的。
训练阶段的损失根据匹配的对计算,计算公式如下:
添加图片注释,不超过 140 字(可选)

2.3 inference for interaction detection

之前提过,一个hoi的检测结果由四个部分组成:。作者的交互检测头设计得非常直观,所需要做的就是从每个head中获取相应的信息。
添加图片注释,不超过 140 字(可选)

实验

作者在两个hoi检测数据集上进行了大量的实验:hico-det和v-coco。hico-det分别包含38118和9658幅图像用于训练和测试。这些图像被标注了80个物体和117个动作类。v-coco包含2533,2867和4946幅图像,分别用于训练、验证和测试。这些图像被标注了80个物体和29个动作类。
添加图片注释,不超过 140 字(可选)
表1展示了本文提出的方法在hico-det数据集上与最先进的方法的比较。顶部、中间和底部的块分别是两阶段方法、单阶段方法和本文方法的map值。
添加图片注释,不超过 140 字(可选)
表2展示了本文提出的方法在v-coco数据集上与最先进的方法的比较。顶部、中间和底部的块的分割和表1相同。
添加图片注释,不超过 140 字(可选)
表3展示了不同的detection heads对于方法在hico-det数据集上效果的影响。
添加图片注释,不超过 140 字(可选)
作者将qpic与两阶段方法和单阶段方法效果最好的baseline(drg和ppdm)进行了详细的比较。图3(a)展示了随着人和目标的中心的距离的变化,三种方法的ap值变化。图3(b)展示了随着人和目标的bounding box面积的变化,三种方法的ap值变化。

参考文献

[1] irwan bello, barret zoph, ashish vaswani, jonathon shlens, and quoc v. le. attention augmented convolutional networks. in iccv, october 2019. 3
[2] nicolas carion, francisco massa, gabriel synnaeve, nicolas usunier, alexander kirillov, and sergey zagoruyko. end-to-end object detection with transformers. in eccv, september 2020.
[3] yu-wei chao, yunfan liu, michael liu, huayi zeng, and jia deng. learning to detect human-object interactions. in wacv, march 2018.
[4] chen gao, jiarui xu, yuliang zou, and jia-bin huang. drg: dual relation graph for human-object interaction detection. in eccv, august 2020.
[5] chen gao, yuliang zou, and jia-bin huang. ican: instance-centric attention network for human-object interaction detection. in bmvc, september 2018.
[6] georgia gkioxari, ross girshick, piotr doll´ar, and kaiming he. detecting and recognizing human-object interactions. in cvpr, june 2018.
[7] saurabh gupta and jitendra malik. visual semantic role labeling. may 2015. arxiv:1505.04474.
[8] tanmay gupta, alexander schwing, and derek hoiem. nofrills human-object interaction detection: factorization, layout encodings, and training techniques. in iccv, october 2019.
[9] kaiming he, georgia gkioxari, p. doll´ar, and ross b. girshick. mask r-cnn. in iccv, october 2017. 2
[10] kaiming he, xiangyu zhang, shaoqing ren, and jian sun. deep residual learning for image recognition. in cvpr, june 2016.