Revisiting Few-Shot Object Detection with Vision-Language Models

要約

Web スケールのデータセットでトレーニングされたビジョン言語モデル (VLM) の時代は、「オープンワールド」認識の従来の定式化に挑戦しています。
この研究では、最近の基本的な VLM のコンテキストで少数ショット物体検出 (FSOD) のタスクを再検討します。
まず、GroundingDINO などの VLM からのゼロショット予測は、COCO 上の最先端の少数ショット検出器 (48 AP 対 33 AP) よりも大幅に優れていることを指摘します。
強力なゼロショット性能にもかかわらず、そのような基礎モデルは依然として最適ではない可能性があります。
たとえば、ウェブ上のトラックは、自動運転車両認識などのターゲット アプリケーションのトラックとは異なるように定義される場合があります。
私たちは、数ショット認識のタスクは、いくつかの例を使用して、基礎モデルをターゲット概念に合わせることで再定式化できると主張します。
興味深いことに、そのような例は、テキストと視覚的な手がかりの両方を使用して、関心のあるターゲット概念を定義するときに人間のアノテーターに与えられることが多い指示を模倣するマルチモーダルにすることができます。
具体的には、外部データで事前トレーニングされ、ターゲット クラスごとのマルチモーダル (テキストおよびビジュアル) K ショット サンプルで微調整された検出器を評価する新しいベンチマーク プロトコルである Foundational FSOD を提案します。
私たちは nuImage を Foundational FSOD に再利用し、いくつかの人気のあるオープンソース VLM をベンチマークし、最先端の手法の実証分析を提供します。
最後に、最近の CVPR 2024 Foundational FSOD コンペティションについて説明し、コミュニティからの洞察を共有します。
特に、優勝チームはベースラインを 23.3 mAP も大幅に上回っています。
コードとデータセットの分割は https://github.com/anishmadan23/foundational_fsod で入手できます。

要約(オリジナル)

The era of vision-language models (VLMs) trained on web-scale datasets challenges conventional formulations of ‘open-world’ perception. In this work, we revisit the task of few-shot object detection (FSOD) in the context of recent foundational VLMs. First, we point out that zero-shot predictions from VLMs such as GroundingDINO significantly outperform state-of-the-art few-shot detectors (48 vs. 33 AP) on COCO. Despite their strong zero-shot performance, such foundation models may still be sub-optimal. For example, trucks on the web may be defined differently from trucks for a target application such as autonomous vehicle perception. We argue that the task of few-shot recognition can be reformulated as aligning foundation models to target concepts using a few examples. Interestingly, such examples can be multi-modal, using both text and visual cues, mimicking instructions that are often given to human annotators when defining a target concept of interest. Concretely, we propose Foundational FSOD, a new benchmark protocol that evaluates detectors pre-trained on any external data and fine-tuned on multi-modal (text and visual) K-shot examples per target class. We repurpose nuImages for Foundational FSOD, benchmark several popular open-source VLMs, and provide an empirical analysis of state-of-the-art methods. Lastly, we discuss our recent CVPR 2024 Foundational FSOD competition and share insights from the community. Notably, the winning team significantly outperforms our baseline by 23.3 mAP! Our code and dataset splits are available at https://github.com/anishmadan23/foundational_fsod

arxiv情報

著者 Anish Madan,Neehar Peri,Shu Kong,Deva Ramanan
発行日 2024-10-14 16:44:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク