Enhancing the Role of Context in Region-Word Alignment for Object Detection

要約

画像とキャプションのペア間のきめの細かい地域単語の配置を学習するための視覚言語の事前トレーニングは、オープン語彙オブジェクト検出の進歩を推進してきました。
通常、地域と単語のアラインメント方法はオブジェクト名詞のみの検出に使用され、属性などのキャプション内の他のリッチ コンテキストの影響は不明です。
この研究では、言語コンテキストが下流のオブジェクト検出にどのように影響するかを調査し、コンテキストの役割を強化することを提案します。
特に、調整を改善するために、グラウンディングの事前トレーニングの目的を戦略的に文脈化する方法を示します。
さらに、特に有用なオブジェクト コンテキストとして属性に注目し、対照学習での焦点を高めるための新しい形容詞および名詞ベースのネガティブ サンプリング戦略を提案します。
全体として、私たちの方法は、最先端の領域単語事前トレーニングと比較して、オブジェクト検出を強化します。
また、テキスト領域の検索とフレーズグラウンディング分析を通じて、属性に敏感なモデルのきめの細かい有用性を強調します。

要約(オリジナル)

Vision-language pretraining to learn a fine-grained, region-word alignment between image-caption pairs has propelled progress in open-vocabulary object detection. We observe that region-word alignment methods are typically used in detection with respect to only object nouns, and the impact of other rich context in captions, such as attributes, is unclear. In this study, we explore how language context affects downstream object detection and propose to enhance the role of context. In particular, we show how to strategically contextualize the grounding pretraining objective for improved alignment. We further hone in on attributes as especially useful object context and propose a novel adjective and noun-based negative sampling strategy for increasing their focus in contrastive learning. Overall, our methods enhance object detection when compared to the state-of-the-art in region-word pretraining. We also highlight the fine-grained utility of an attribute-sensitive model through text-region retrieval and phrase grounding analysis.

arxiv情報

著者 Kyle Buettner,Adriana Kovashka
発行日 2023-03-17 16:14:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク