要約
このペーパーでは、Transformer アーキテクチャを使用した統合増分少数ショット オブジェクト検出 (iFSOD) とインスタンス セグメンテーション (iFSIS) のための新しいフレームワークを紹介します。
私たちの目標は、基本クラスと新規クラスの両方で高いパフォーマンスを維持しながら、基本クラスまたは古いクラスのトレーニング データにアクセスできない、新しいオブジェクト クラスの例が少数しか利用できない状況に最適なソリューションを作成することです。
これを達成するために、Mask-DINO を 2 段階の増分学習フレームワークに拡張します。
ステージ 1 では、基本データセットを使用してモデルを最適化することに重点を置き、ステージ 2 では、新しいクラスでのモデルの微調整を行います。
さらに、エンコーダーとデコーダーの異なる機能に従って適切な分類子を割り当てる分類子選択戦略を組み込みます。
経験的証拠は、このアプローチが新規クラス学習の過剰適合を効果的に軽減することを示しています。
さらに、基本クラスの壊滅的な忘れを防ぐために知識の蒸留を実装します。
iFSIS タスクと iFSOD タスクの両方に対する COCO および LVIS データセットの包括的な評価により、私たちの手法が最先端のアプローチを大幅に上回ることが実証されました。
要約(オリジナル)
This paper introduces a novel framework for unified incremental few-shot object detection (iFSOD) and instance segmentation (iFSIS) using the Transformer architecture. Our goal is to create an optimal solution for situations where only a few examples of novel object classes are available, with no access to training data for base or old classes, while maintaining high performance across both base and novel classes. To achieve this, We extend Mask-DINO into a two-stage incremental learning framework. Stage 1 focuses on optimizing the model using the base dataset, while Stage 2 involves fine-tuning the model on novel classes. Besides, we incorporate a classifier selection strategy that assigns appropriate classifiers to the encoder and decoder according to their distinct functions. Empirical evidence indicates that this approach effectively mitigates the over-fitting on novel classes learning. Furthermore, we implement knowledge distillation to prevent catastrophic forgetting of base classes. Comprehensive evaluations on the COCO and LVIS datasets for both iFSIS and iFSOD tasks demonstrate that our method significantly outperforms state-of-the-art approaches.
arxiv情報
著者 | Chengyuan Zhang,Yilin Zhang,Lei Zhu,Deyin Liu,Lin Wu,Bo Li,Shichao Zhang,Mohammed Bennamoun,Farid Boussaid |
発行日 | 2024-11-13 12:29:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google