SMILe: Leveraging Submodular Mutual Information For Robust Few-Shot Object Detection

要約

オブジェクト クラスの混乱と忘れは、Few-Shot Object Detection (FSOD) における最大の関心事の課題です。
計量学習ベースの FSOD 手法におけるこれらの落とし穴を克服するために、組み合わせ相互情報関数を採用して FSOD でより緊密で識別的な特徴クラスターの作成を強制する、新しいサブモジュール相互情報学習 (SMILe) フレームワークを導入します。
私たちが提案するアプローチは、バックボーン アーキテクチャに依存せず、FSOD のいくつかの既存のアプローチを一般化したもので、パフォーマンスの向上を示しています。
SMILe では、インスタンス ベースの目的関数から組み合わせ目的関数へのパラダイム シフトにより、オブジェクト クラス内の多様性が自然に維持され、その結果、トレーニング例が少ない場合でも忘却が減少します。
さらに、すでに学習された (ベース) オブジェクトと新しく追加された (新規) オブジェクト間の相互情報を適用することで、基本クラスと新規クラス間の十分な分離が確保され、クラスの混乱の影響が最小限に抑えられます。
人気の FSOD ベンチマーク、PASCAL-VOC および MS-COCO での実験では、私たちのアプローチが最先端 (SoTA) アプローチに一般化され、新規クラスのパフォーマンスが最大 5.7% (3.3 mAP ポイント) および 5.4% (2.6 mAP ポイント) 向上することが示されています。
mAP ポイント)は、VOC の 10 ショット設定(スプリット 3)と COCO データセットの 30 ショット設定にそれぞれ適用されます。
また、私たちの実験では、基本クラスのパフォーマンスの保持が向上し、基盤となるアーキテクチャに依存しない既存のアプローチと比較して最大 2 倍高速な収束が実証されました。

要約(オリジナル)

Confusion and forgetting of object classes have been challenges of prime interest in Few-Shot Object Detection (FSOD). To overcome these pitfalls in metric learning based FSOD techniques, we introduce a novel Submodular Mutual Information Learning (SMILe) framework which adopts combinatorial mutual information functions to enforce the creation of tighter and discriminative feature clusters in FSOD. Our proposed approach generalizes to several existing approaches in FSOD, agnostic of the backbone architecture demonstrating elevated performance gains. A paradigm shift from instance based objective functions to combinatorial objectives in SMILe naturally preserves the diversity within an object class resulting in reduced forgetting when subjected to few training examples. Furthermore, the application of mutual information between the already learnt (base) and newly added (novel) objects ensures sufficient separation between base and novel classes, minimizing the effect of class confusion. Experiments on popular FSOD benchmarks, PASCAL-VOC and MS-COCO show that our approach generalizes to State-of-the-Art (SoTA) approaches improving their novel class performance by up to 5.7% (3.3 mAP points) and 5.4% (2.6 mAP points) on the 10-shot setting of VOC (split 3) and 30-shot setting of COCO datasets respectively. Our experiments also demonstrate better retention of base class performance and up to 2x faster convergence over existing approaches agnostic of the underlying architecture.

arxiv情報

著者 Anay Majee,Ryan Sharp,Rishabh Iyer
発行日 2024-09-17 15:52:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク