Detect Every Thing with Few Examples

要約

オープンセットのオブジェクト検出は、トレーニング中に見られたカテゴリーを超えた任意のカテゴリーを検出することを目的としています。
最近の進歩では、視覚言語のバックボーンを利用してカテゴリーを言語で表現するオープンボキャブラリーパラダイムが採用されています。
このペーパーでは、視覚専用の DINOv2 バックボーンを採用し、言語の代わりにサンプル画像を通じて新しいカテゴリを学習するオープンセットの物体検出器である DE-ViT を紹介します。
一般的な検出能力を向上させるために、クラスごとの推論をバイパスしながら多分類タスクを二値分類タスクに変換し、位置特定のための新しい領域伝播手法を提案します。
COCO および LVIS を使用した、オープン語彙、少数ショット、およびワンショットの物体検出ベンチマークで DE-ViT を評価します。
COCO の場合、DE-ViT はオープン語彙 SoTA を 6.9 AP50 上回り、新規クラスでは 50 AP50 を達成しています。
DE-ViT は、数ショットの SoTA を 10 ショットで 15 mAP、30 ショットで 7.2 mAP、ワンショットの SoTA を 2.8 AP50 上回ります。
LVIS の場合、DE-ViT はオープン語彙 SoTA を 2.2 マスク AP 上回り、34.3 マスク APr に達します。
コードは https://github.com/mlzxy/devit で入手できます。

要約(オリジナル)

Open-set object detection aims at detecting arbitrary categories beyond those seen during training. Most recent advancements have adopted the open-vocabulary paradigm, utilizing vision-language backbones to represent categories with language. In this paper, we introduce DE-ViT, an open-set object detector that employs vision-only DINOv2 backbones and learns new categories through example images instead of language. To improve general detection ability, we transform multi-classification tasks into binary classification tasks while bypassing per-class inference, and propose a novel region propagation technique for localization. We evaluate DE-ViT on open-vocabulary, few-shot, and one-shot object detection benchmark with COCO and LVIS. For COCO, DE-ViT outperforms the open-vocabulary SoTA by 6.9 AP50 and achieves 50 AP50 in novel classes. DE-ViT surpasses the few-shot SoTA by 15 mAP on 10-shot and 7.2 mAP on 30-shot and one-shot SoTA by 2.8 AP50. For LVIS, DE-ViT outperforms the open-vocabulary SoTA by 2.2 mask AP and reaches 34.3 mask APr. Code is available at https://github.com/mlzxy/devit.

arxiv情報

著者 Xinyu Zhang,Yuting Wang,Abdeslam Boularias
発行日 2023-09-22 16:07:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク