A Comparative Attention Framework for Better Few-Shot Object Detection on Aerial Images

要約

Few-Shot Object Detection (FSOD) メソッドは、主に Pascal VOC や MS COCO などの自然画像データセットで設計および評価されます。
ただし、自然画像に最適な方法が空中画像にも最適かどうかは明らかではありません。
さらに、検出フレームワークとトレーニング戦略が多種多様であるため、FSOD メソッド間のパフォーマンスを直接比較することは困難です。
したがって、アテンション ベースの FSOD メソッドを実装および比較するための柔軟な環境を提供するベンチマーク フレームワークを提案します。
提案されたフレームワークは注意メカニズムに焦点を当てており、空間配置、グローバル注意、融合層の 3 つのモジュールに分かれています。
複雑なトレーニングを活用することが多い既存の方法との競争力を維持するために、オブジェクト検出用に設計された新しい拡張技術を提案します。
このフレームワークを使用して、いくつかの FSOD メソッドが再実装され、比較されます。
この比較では、航空画像と自然画像の 2 つの異なるパフォーマンス体制が強調されています。FSOD は航空画像でパフォーマンスが低下します。
私たちの実験は、少数ショットの設定では検出が難しい小さなオブジェクトがパフォーマンスの低下の原因であることを示唆しています。
最後に、小さなオブジェクトの検出を改善するために、FSOD 用の新しいマルチスケール アラインメント方法である Cross-Scales Query-Support Alignment (XQSA) を開発します。
XQSA は、DOTA と DIOR で最新技術を大幅に上回っています。

要約(オリジナル)

Few-Shot Object Detection (FSOD) methods are mainly designed and evaluated on natural image datasets such as Pascal VOC and MS COCO. However, it is not clear whether the best methods for natural images are also the best for aerial images. Furthermore, direct comparison of performance between FSOD methods is difficult due to the wide variety of detection frameworks and training strategies. Therefore, we propose a benchmarking framework that provides a flexible environment to implement and compare attention-based FSOD methods. The proposed framework focuses on attention mechanisms and is divided into three modules: spatial alignment, global attention, and fusion layer. To remain competitive with existing methods, which often leverage complex training, we propose new augmentation techniques designed for object detection. Using this framework, several FSOD methods are reimplemented and compared. This comparison highlights two distinct performance regimes on aerial and natural images: FSOD performs worse on aerial images. Our experiments suggest that small objects, which are harder to detect in the few-shot setting, account for the poor performance. Finally, we develop a novel multiscale alignment method, Cross-Scales Query-Support Alignment (XQSA) for FSOD, to improve the detection of small objects. XQSA outperforms the state-of-the-art significantly on DOTA and DIOR.

arxiv情報

著者 Pierre Le Jeune,Anissa Mokraoui
発行日 2022-10-25 11:20:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク