要約
少数ショットのオブジェクト検出は、いくつかの画像例から新しいカテゴリを検出することを目的としています。
最近の手法は微調整戦略に焦点を当てており、複雑な手順を伴うため、より広範な適用ができません。
本稿では、微調整を必要としない数ショットの物体検出器 DE-ViT を紹介します。
DE-ViT の新しいアーキテクチャは、位置特定のための新しい領域伝播メカニズムに基づいています。
伝播された領域マスクは、学習可能な空間積分層を通じて境界ボックスに変換されます。
プロトタイプ分類器をトレーニングする代わりに、プロトタイプを使用して ViT 特徴を基本クラスのオーバーフィッティングに対して堅牢な部分空間に投影することを提案します。
Pascal VOC、COCO、および LVIS を使用した、少数ショットおよびワンショットの物体検出ベンチマークで DE-ViT を評価します。
DE-ViT は、すべてのベンチマークで新しい最先端の結果を確立します。
特に、COCO の場合、DE-ViT は数ショットの SoTA を 10 ショットで 15 mAP、30 ショットで 7.2 mAP、ワンショットの SoTA で 2.8 AP50 上回っています。
LVIS の場合、DE-ViT は数ショット SoTA よりも 20 ボックス Apr 優れています。
要約(オリジナル)
Few-shot object detection aims at detecting novel categories given a few example images. Recent methods focus on finetuning strategies, with complicated procedures that prohibit a wider application. In this paper, we introduce DE-ViT, a few-shot object detector without the need for finetuning. DE-ViT’s novel architecture is based on a new region-propagation mechanism for localization. The propagated region masks are transformed into bounding boxes through a learnable spatial integral layer. Instead of training prototype classifiers, we propose to use prototypes to project ViT features into a subspace that is robust to overfitting on base classes. We evaluate DE-ViT on few-shot, and one-shot object detection benchmarks with Pascal VOC, COCO, and LVIS. DE-ViT establishes new state-of-the-art results on all benchmarks. Notably, for COCO, DE-ViT surpasses the few-shot SoTA by 15 mAP on 10-shot and 7.2 mAP on 30-shot and one-shot SoTA by 2.8 AP50. For LVIS, DE-ViT outperforms few-shot SoTA by 20 box APr.
arxiv情報
著者 | Xinyu Zhang,Yuting Wang,Abdeslam Boularias |
発行日 | 2024-03-07 12:43:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google