要約
視覚的接地は、自然言語表現によって示される対象を探し出すタスクである。既存の手法は、一般的なオブジェクト検出の枠組みをこの問題に拡張したものである。これらの手法は、あらかじめ生成されたプロポーザルやアンカーからの特徴量に基づき、これらの特徴量とテキスト埋め込みを融合して、テキストによって言及されたターゲットの位置を特定する。しかし、これらの事前定義された位置から視覚的特徴をモデル化することは、テキストクエリにおける視覚的コンテキストと属性情報を十分に活用できない可能性があり、その性能は制限される。本論文では、テキストに応じた識別特徴を確立し、多段階のクロスモーダル推論を行うことにより、正確な視覚的根拠を得るための変換器ベースの枠組みを提案する。具体的には、テキスト記述に関連する領域に視覚的特徴を集中させ、関連しない領域を抑制する視覚-言語間検証モジュールを開発する。また、言語誘導型特徴量エンコーダを考案し、対象物の視覚的文脈を集約して対象物の識別性を向上させる。さらに、符号化された視覚的特徴から対象を検索するために、多段クロスモーダルデコーダを提案し、画像とテキストの相関を繰り返し推測して、正確な対象位置の特定を行う。広く使われている5つのデータセットを用いた広範な実験により、提案するコンポーネントの有効性を検証し、最先端の性能を実証する。我々のコードは https://github.com/yangli18/VLTVG で公開されています。
要約(オリジナル)
Visual grounding is a task to locate the target indicated by a natural language expression. Existing methods extend the generic object detection framework to this problem. They base the visual grounding on the features from pre-generated proposals or anchors, and fuse these features with the text embeddings to locate the target mentioned by the text. However, modeling the visual features from these predefined locations may fail to fully exploit the visual context and attribute information in the text query, which limits their performance. In this paper, we propose a transformer-based framework for accurate visual grounding by establishing text-conditioned discriminative features and performing multi-stage cross-modal reasoning. Specifically, we develop a visual-linguistic verification module to focus the visual features on regions relevant to the textual descriptions while suppressing the unrelated areas. A language-guided feature encoder is also devised to aggregate the visual contexts of the target object to improve the object’s distinctiveness. To retrieve the target from the encoded visual features, we further propose a multi-stage cross-modal decoder to iteratively speculate on the correlations between the image and text for accurate target localization. Extensive experiments on five widely used datasets validate the efficacy of our proposed components and demonstrate state-of-the-art performance. Our code is public at https://github.com/yangli18/VLTVG.
arxiv情報
著者 | Li Yang,Yan Xu,Chunfeng Yuan,Wei Liu,Bing Li,Weiming Hu |
発行日 | 2022-06-08 16:28:15+00:00 |
arxivサイト | arxiv_id(pdf) |