Retrieval-Augmented Open-Vocabulary Object Detection

要約

オープン語彙オブジェクト検出 (OVD) は、事前トレーニングされたカテゴリを超えた新しいオブジェクトを検出するために、視覚言語モデル (VLM) を使用して研究されています。
以前のアプローチでは、靴下、iPod、ワニなどの追加の「クラス」名を持つ「正の」擬似ラベルを使用して、検出器の知識を拡張する一般化機能が向上しました。
以前の方法を 2 つの側面で拡張するために、検索拡張損失および視覚的特徴 (RALF) を提案します。
私たちのメソッドは、関連する「ネガティブ」クラスを取得し、損失関数を強化します。
また、視覚的特徴は、足に装着するもの、携帯用音楽プレーヤー、鋭い歯など、クラスの「言語化された概念」によって強化されます。
具体的には、RALF は、取得拡張損失 (RAL) と取得拡張視覚機能 (RAF) の 2 つのモジュールで構成されます。
RAL は、否定的な語彙との意味上の類似性を反映する 2 つの損失を構成します。
さらに、RAF は、大規模言語モデル (LLM) から言語化された概念を使用して視覚的な機能を強化します。
私たちの実験では、COCO および LVIS ベンチマーク データセットに対する RALF の有効性を実証しています。
COCO データセットの新規カテゴリでは最大 3.4 ボックス AP$_{50}^{\text{N}}$ の改善を達成し、LVIS データセットでは 3.6 マスク AP$_{\text{r}}$ の向上を達成しました。
コードは https://github.com/mlvlab/RALF で入手できます。

要約(オリジナル)

Open-vocabulary object detection (OVD) has been studied with Vision-Language Models (VLMs) to detect novel objects beyond the pre-trained categories. Previous approaches improve the generalization ability to expand the knowledge of the detector, using ‘positive’ pseudo-labels with additional ‘class’ names, e.g., sock, iPod, and alligator. To extend the previous methods in two aspects, we propose Retrieval-Augmented Losses and visual Features (RALF). Our method retrieves related ‘negative’ classes and augments loss functions. Also, visual features are augmented with ‘verbalized concepts’ of classes, e.g., worn on the feet, handheld music player, and sharp teeth. Specifically, RALF consists of two modules: Retrieval Augmented Losses (RAL) and Retrieval-Augmented visual Features (RAF). RAL constitutes two losses reflecting the semantic similarity with negative vocabularies. In addition, RAF augments visual features with the verbalized concepts from a large language model (LLM). Our experiments demonstrate the effectiveness of RALF on COCO and LVIS benchmark datasets. We achieve improvement up to 3.4 box AP$_{50}^{\text{N}}$ on novel categories of the COCO dataset and 3.6 mask AP$_{\text{r}}$ gains on the LVIS dataset. Code is available at https://github.com/mlvlab/RALF .

arxiv情報

著者 Jooyeon Kim,Eulrang Cho,Sehyung Kim,Hyunwoo J. Kim
発行日 2024-04-08 17:10:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク