要約
オープン語彙オブジェクト検出 (OvOD) は、検出を言語ガイド付きタスクに変換し、ユーザーが推論中に対象となるクラス語彙を自由に定義できるようにします。
ただし、私たちの初期調査では、既存の OvOD 検出器は、さまざまなセマンティック粒度にわたる語彙を扱う際に大きなばらつきを示し、現実世界の展開に懸念をもたらしていることが示されています。
この目的を達成するために、クラス階層からの意味論的な知識を使用する新しい分類子である Semantic Hierarchy Nexus (SHiNe) を導入します。
これは 3 つのステップでオフラインで実行されます。i) 各ターゲット クラスの階層から関連するスーパー/サブ カテゴリを取得します。
ii) これらのカテゴリを階層を意識した文に統合します。
iii) これらの文埋め込みを融合して、ネクサス分類子ベクトルを生成します。
さまざまな検出ベンチマークに関する評価では、SHiNe がさまざまな語彙粒度にわたって堅牢性を強化し、大規模な言語モデルによって生成された階層を使用して改善を維持しながら、グラウンド トゥルース階層で最大 +31.9% の mAP50 を達成することが実証されています。
さらに、SHiNe を ImageNet-1k のオープン語彙分類に適用すると、CLIP ゼロショット ベースラインの精度が +2.8% 向上します。
SHiNe はトレーニング不要で、推論中に追加の計算オーバーヘッドを発生させることなく、既製の OvOD 検出器とシームレスに統合できます。
コードはオープンソースです。
要約(オリジナル)
Open-vocabulary object detection (OvOD) has transformed detection into a language-guided task, empowering users to freely define their class vocabularies of interest during inference. However, our initial investigation indicates that existing OvOD detectors exhibit significant variability when dealing with vocabularies across various semantic granularities, posing a concern for real-world deployment. To this end, we introduce Semantic Hierarchy Nexus (SHiNe), a novel classifier that uses semantic knowledge from class hierarchies. It runs offline in three steps: i) it retrieves relevant super-/sub-categories from a hierarchy for each target class; ii) it integrates these categories into hierarchy-aware sentences; iii) it fuses these sentence embeddings to generate the nexus classifier vector. Our evaluation on various detection benchmarks demonstrates that SHiNe enhances robustness across diverse vocabulary granularities, achieving up to +31.9% mAP50 with ground truth hierarchies, while retaining improvements using hierarchies generated by large language models. Moreover, when applied to open-vocabulary classification on ImageNet-1k, SHiNe improves the CLIP zero-shot baseline by +2.8% accuracy. SHiNe is training-free and can be seamlessly integrated with any off-the-shelf OvOD detector, without incurring additional computational overhead during inference. The code is open source.
arxiv情報
著者 | Mingxuan Liu,Tyler L. Hayes,Elisa Ricci,Gabriela Csurka,Riccardo Volpi |
発行日 | 2024-05-16 12:42:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google