RefCrowd: Grounding the Target in Crowd with Referring Expressions

要約

群衆の理解は、その重要な実用的重要性のために、視覚領域への幅広い関心を呼び起こしました。
残念ながら、自然言語とコンピュータービジョンをつなぐマルチモーダルドメインで群衆の理解を探求する努力はありません。
参照表現理解(REF)は、そのような代表的なマルチモーダルタスクです。
現在のREF研究は、一般的なシナリオで複数の特徴的なカテゴリからターゲットオブジェクトを接地することに重点を置いています。
複雑な現実世界の群衆の理解に適用することは困難です。
このギャップを埋めるために、RefCrowdと呼ばれる新しい挑戦的なデータセットを提案します。これは、参照式を使用して群衆の中のターゲット人物を探すことを目的としています。
自然言語情報を十分に掘り下げるだけでなく、言語から視覚へのきめ細かいマッピングを実現するために、ターゲットと似たような外観の人々の群衆との微妙な違いに注意深く焦点を当てる必要があります。
さらに、群衆の理解においてREFを処理するために、きめの細かいマルチモーダル属性コントラストネットワーク(FMAC)を提案します。
最初に複雑な視覚機能と言語機能を属性認識マルチモーダル機能に分解し、次に識別可能でありながら堅牢性のきめ細かい属性機能をキャプチャして、類似した人物間のこれらの微妙な違いを効果的に区別します。
提案された方法は、RefCrowdデータセットおよび既存のREFデータセットの既存の最先端(SoTA)方法よりも優れています。
さらに、マルチモーダルドメインでのより深い研究のためにエンドツーエンドのREFツールボックスを実装します。
データセットとコードは、\url{https://qiuheqian.github.io/datasets/refcrowd/}で入手できます。

要約(オリジナル)

Crowd understanding has aroused the widespread interest in vision domain due to its important practical significance. Unfortunately, there is no effort to explore crowd understanding in multi-modal domain that bridges natural language and computer vision. Referring expression comprehension (REF) is such a representative multi-modal task. Current REF studies focus more on grounding the target object from multiple distinctive categories in general scenarios. It is difficult to applied to complex real-world crowd understanding. To fill this gap, we propose a new challenging dataset, called RefCrowd, which towards looking for the target person in crowd with referring expressions. It not only requires to sufficiently mine the natural language information, but also requires to carefully focus on subtle differences between the target and a crowd of persons with similar appearance, so as to realize the fine-grained mapping from language to vision. Furthermore, we propose a Fine-grained Multi-modal Attribute Contrastive Network (FMAC) to deal with REF in crowd understanding. It first decomposes the intricate visual and language features into attribute-aware multi-modal features, and then captures discriminative but robustness fine-grained attribute features to effectively distinguish these subtle differences between similar persons. The proposed method outperforms existing state-of-the-art (SoTA) methods on our RefCrowd dataset and existing REF datasets. In addition, we implement an end-to-end REF toolbox for the deeper research in multi-modal domain. Our dataset and code can be available at: \url{https://qiuheqian.github.io/datasets/refcrowd/}.

arxiv情報

著者 Heqian Qiu,Hongliang Li,Taijin Zhao,Lanxiao Wang,Qingbo Wu,Fanman Meng
発行日 2022-06-16 13:39:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク