Weakly Supervised Open-Vocabulary Object Detection

要約

弱教師オブジェクト検出 (WSOD) は、強力なインスタンス レベルのアノテーションを回避するための有望なステップであるにもかかわらず、その機能は単一のトレーニング データセット内の閉集合カテゴリに限定されています。
この論文では、新しい弱教師付きオープン語彙オブジェクト検出フレームワーク、つまり WSOVOD を提案します。これは、従来の WSOD を拡張して新しい概念を検出し、画像レベルの注釈のみを備えた多様なデータセットを利用するものです。
これを達成するために、データセットレベルの特徴適応、画像レベルの顕著なオブジェクトの位置特定、および領域レベルの視覚と言語の調整を含む 3 つの重要な戦略を検討します。
まず、データを意識した特徴抽出を実行して入力条件付き係数を生成します。この係数はデータセット属性プロトタイプに利用されて、データセットの偏りを特定し、データセット間の一般化の達成に役立ちます。
第二に、カスタマイズされた位置指向の弱監視領域提案ネットワークが提案され、カテゴリに依存しないセグメント何でもモデルからの高レベルの意味論的レイアウトを利用して、オブジェクトの境界を区別します。
最後に、概念のテキスト埋め込みに一致するオブジェクトを発見するために、提案と概念の同期マルチインスタンス ネットワーク、つまり、視覚的意味論的調整によるオブジェクト マイニングと洗練を導入します。
Pascal VOC と MS COCO に関する広範な実験により、提案された WSOVOD が、近接集合物体の位置特定と検出タスクの両方において、以前の WSOD 手法と比較して新しい最先端を達成していることが実証されました。
一方、WSOVOD を使用すると、クロスデータセットおよびオープン語彙学習が可能になり、十分に確立された完全教師ありオープン語彙オブジェクト検出 (FSOVOD) と同等またはそれ以上のパフォーマンスを達成できます。

要約(オリジナル)

Despite weakly supervised object detection (WSOD) being a promising step toward evading strong instance-level annotations, its capability is confined to closed-set categories within a single training dataset. In this paper, we propose a novel weakly supervised open-vocabulary object detection framework, namely WSOVOD, to extend traditional WSOD to detect novel concepts and utilize diverse datasets with only image-level annotations. To achieve this, we explore three vital strategies, including dataset-level feature adaptation, image-level salient object localization, and region-level vision-language alignment. First, we perform data-aware feature extraction to produce an input-conditional coefficient, which is leveraged into dataset attribute prototypes to identify dataset bias and help achieve cross-dataset generalization. Second, a customized location-oriented weakly supervised region proposal network is proposed to utilize high-level semantic layouts from the category-agnostic segment anything model to distinguish object boundaries. Lastly, we introduce a proposal-concept synchronized multiple-instance network, i.e., object mining and refinement with visual-semantic alignment, to discover objects matched to the text embeddings of concepts. Extensive experiments on Pascal VOC and MS COCO demonstrate that the proposed WSOVOD achieves new state-of-the-art compared with previous WSOD methods in both close-set object localization and detection tasks. Meanwhile, WSOVOD enables cross-dataset and open-vocabulary learning to achieve on-par or even better performance than well-established fully-supervised open-vocabulary object detection (FSOVOD).

arxiv情報

著者 Jianghang Lin,Yunhang Shen,Bingquan Wang,Shaohui Lin,Ke Li,Liujuan Cao
発行日 2023-12-19 18:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク