要約
事前トレーニング済みの視覚言語モデル (VLM) は、大規模なデータセット上で視覚と言語の表現を調整することを学習します。通常、画像とテキストの各ペアには、一連のセマンティック コンセプトが含まれています。
ただし、既存のオープン語彙オブジェクト検出器は、領域の埋め込みを VLM から抽出された対応する特徴と個別に調整するだけです。
このような設計は、悪用されていないシーンのセマンティック概念の合成構造を残しますが、その構造は VLM によって暗黙のうちに学習される可能性があります。
この作業では、個々の領域を超えて領域のバッグの埋め込みを調整することを提案します。
提案された方法は、文脈的に相互に関連する領域をバッグとしてグループ化します。
バッグ内の領域の埋め込みは、文内の単語の埋め込みとして扱われ、VLM のテキスト エンコーダーに送信されて、バッグ オブ リージョンの埋め込みが取得されます。
凍結された VLM。
一般的に使用される Faster R-CNN に適用されたこのアプローチは、オープン語彙の COCO および LVIS ベンチマークの新しいカテゴリで、それぞれ 4.6 ボックス AP50 および 2.8 マスク AP で以前の最良の結果を上回ります。
コードとモデルは https://github.com/wusize/ovdet で入手できます。
要約(オリジナル)
Pre-trained vision-language models (VLMs) learn to align vision and language representations on large-scale datasets, where each image-text pair usually contains a bag of semantic concepts. However, existing open-vocabulary object detectors only align region embeddings individually with the corresponding features extracted from the VLMs. Such a design leaves the compositional structure of semantic concepts in a scene under-exploited, although the structure may be implicitly learned by the VLMs. In this work, we propose to align the embedding of bag of regions beyond individual regions. The proposed method groups contextually interrelated regions as a bag. The embeddings of regions in a bag are treated as embeddings of words in a sentence, and they are sent to the text encoder of a VLM to obtain the bag-of-regions embedding, which is learned to be aligned to the corresponding features extracted by a frozen VLM. Applied to the commonly used Faster R-CNN, our approach surpasses the previous best results by 4.6 box AP50 and 2.8 mask AP on novel categories of open-vocabulary COCO and LVIS benchmarks, respectively. Code and models are available at https://github.com/wusize/ovdet.
arxiv情報
著者 | Size Wu,Wenwei Zhang,Sheng Jin,Wentao Liu,Chen Change Loy |
発行日 | 2023-02-27 17:39:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google