Few-Shot Object Detection via Association and DIscrimination

要約

物体検出は、過去10年間で大幅な進歩を遂げました。
ただし、低データレジームでの深層学習は通常、機能空間の劣化につながるため、サンプル数が少ない新規クラスの検出は依然として困難です。
既存の作品は、この問題に取り組むために全体的な微調整パラダイムを採用しています。モデルは、最初に豊富なサンプルを使用してすべての基本クラスで事前トレーニングされ、次に新しいクラスの特徴空間を切り開くために使用されます。
それにもかかわらず、このパラダイムはまだ不完全です。
微調整中に、新しいクラスは、複数の基本クラスの知識を暗黙的に活用してその特徴空間を構築し、それによって散在する特徴空間を誘発し、したがってクラス間の分離可能性に違反する可能性があります。
これらの障害を克服するために、2段階の微調整フレームワークであるAssociation and DIscrimination(FADI)による少数ショットオブジェクト検出を提案します。これは、2つの統合されたステップで各新規クラスの識別機能空間を構築します。
1)関連付けのステップでは、複数の基本クラスを暗黙的に活用するのとは対照的に、特定の基本クラスの特徴空間を明示的に模倣することにより、コンパクトな新規クラスの特徴空間を構築します。
具体的には、各新規クラスを、それらの意味的類似性に従って基本クラスに関連付けます。
その後、新しいクラスの特徴空間は、関連する基本クラスのよく訓練された特徴空間を容易に模倣することができます。
2)識別ステップでは、新規クラスと関連する基本クラスの間の分離可能性を確保するために、基本クラスと新規クラスの分類ブランチを解きほぐします。
すべてのクラス間のクラス間の分離可能性をさらに拡大するために、セットに特化したマージン損失が課せられます。
Pascal VOCおよびMS-COCOデータセットに関する広範な実験は、FADIが新しいSOTAパフォーマンスを達成し、ショット/スプリットのベースラインを+18.7改善することを示しています。
特に、この利点は、非常に少数のショットのシナリオで最も発表されます。

要約(オリジナル)

Object detection has achieved substantial progress in the last decade. However, detecting novel classes with only few samples remains challenging, since deep learning under low data regime usually leads to a degraded feature space. Existing works employ a holistic fine-tuning paradigm to tackle this problem, where the model is first pre-trained on all base classes with abundant samples, and then it is used to carve the novel class feature space. Nonetheless, this paradigm is still imperfect. Durning fine-tuning, a novel class may implicitly leverage the knowledge of multiple base classes to construct its feature space, which induces a scattered feature space, hence violating the inter-class separability. To overcome these obstacles, we propose a two-step fine-tuning framework, Few-shot object detection via Association and DIscrimination (FADI), which builds up a discriminative feature space for each novel class with two integral steps. 1) In the association step, in contrast to implicitly leveraging multiple base classes, we construct a compact novel class feature space via explicitly imitating a specific base class feature space. Specifically, we associate each novel class with a base class according to their semantic similarity. After that, the feature space of a novel class can readily imitate the well-trained feature space of the associated base class. 2) In the discrimination step, to ensure the separability between the novel classes and associated base classes, we disentangle the classification branches for base and novel classes. To further enlarge the inter-class separability between all classes, a set-specialized margin loss is imposed. Extensive experiments on Pascal VOC and MS-COCO datasets demonstrate FADI achieves new SOTA performance, significantly improving the baseline in any shot/split by +18.7. Notably, the advantage is most announced on extremely few-shot scenarios.

arxiv情報

著者 Yuhang Cao,Jiaqi Wang,Ying Jin,Tong Wu,Kai Chen,Ziwei Liu,Dahua Lin
発行日 2022-06-04 04:27:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク