要約
現実世界の環境における多様性の性質により、ニューラル ネットワーク モデルを閉じたカテゴリ設定から拡張して、新しい新興カテゴリに対応する必要があります。
この論文では、基本アノテーションとオープン語彙知識のみの監視下で新しいオブジェクト クラスの検出を容易にするオープン語彙オブジェクト検出 (OVD) について研究します。
しかし、位置合わせプロセス中の領域間の隣接関係が不適切であるため、最近の蒸留ベースの OVD 戦略のパフォーマンスが必然的に制約されることがわかりました。
この目的を達成するために、我々は隣接領域アテンション アライメント (NRAA) を提案します。これは、オープン語彙推論を強化するために、一連の隣接領域のアテンション メカニズム内でアライメントを実行します。
具体的には、特定の提案領域について、隣接ボックスをランダムに探索し、提案した隣接領域アテンション (NRA) メカニズムを実行して関係情報を抽出します。
次に、この相互作用情報は蒸留手順にシームレスに提供され、検出器と事前トレーニングされた視覚言語モデル (VLM) の間の調整を支援します。
広範な実験により、私たちが提案したモデルがオープン語彙ベンチマークで優れたパフォーマンスを示すことが検証されました。
要約(オリジナル)
The nature of diversity in real-world environments necessitates neural network models to expand from closed category settings to accommodate novel emerging categories. In this paper, we study the open-vocabulary object detection (OVD), which facilitates the detection of novel object classes under the supervision of only base annotations and open-vocabulary knowledge. However, we find that the inadequacy of neighboring relationships between regions during the alignment process inevitably constrains the performance on recent distillation-based OVD strategies. To this end, we propose Neighboring Region Attention Alignment (NRAA), which performs alignment within the attention mechanism of a set of neighboring regions to boost the open-vocabulary inference. Specifically, for a given proposal region, we randomly explore the neighboring boxes and conduct our proposed neighboring region attention (NRA) mechanism to extract relationship information. Then, this interaction information is seamlessly provided into the distillation procedure to assist the alignment between the detector and the pre-trained vision-language models (VLMs). Extensive experiments validate that our proposed model exhibits superior performance on open-vocabulary benchmarks.
arxiv情報
著者 | Sunyuan Qiang,Xianfei Li,Yanyan Liang,Wenlong Liao,Tao He,Pai Peng |
発行日 | 2024-05-14 13:35:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google