Exploring Robust Features for Few-Shot Object Detection in Satellite Imagery

要約

このペーパーの目的は、ほんの数例を使用して衛星画像内のオブジェクト検出を実行し、ユーザーが最小限の注釈で任意のオブジェクト クラスを指定できるようにすることです。
この目的を達成するために、リモート センシング領域のオープン語彙検出からの最近の方法とアイデアを調査します。
私たちは、分類ブロックがプロトタイプベースの分類器に置き換えられる、従来の 2 段階アーキテクチャに基づいて、少数ショットの物体検出器を開発します。
大規模な事前トレーニング済みモデルは、クラス参照埋め込みまたはプロトタイプの構築に使用され、ラベル予測のために領域提案コンテンツと比較されます。
さらに、パフォーマンスを向上させ、航空機の種類などの類似したクラス間の違いを学習するために、利用可能なトレーニング画像でプロトタイプを微調整することを提案します。
私たちは、困難で希少な天体を含む 2 つのリモート センシング データセットに対して広範な評価を実行します。
さらに、リモート センシング アプリケーション向けに特別に調整された 2 つの CLIP モデルを含む、ビジュアルおよび画像テキスト機能の両方、つまり DINOv2 と CLIP のパフォーマンスを研究します。
結果は、視覚言語モデルには必要な領域固有の語彙が欠けているため、視覚特徴が視覚言語モデルよりも大幅に優れていることを示しています。
最後に、開発された検出器は、トレーニング パラメーターが最小限であるにもかかわらず、SIMD および DIOR データセットで評価された完全に監視された少数ショット手法よりも優れた性能を発揮します。

要約(オリジナル)

The goal of this paper is to perform object detection in satellite imagery with only a few examples, thus enabling users to specify any object class with minimal annotation. To this end, we explore recent methods and ideas from open-vocabulary detection for the remote sensing domain. We develop a few-shot object detector based on a traditional two-stage architecture, where the classification block is replaced by a prototype-based classifier. A large-scale pre-trained model is used to build class-reference embeddings or prototypes, which are compared to region proposal contents for label prediction. In addition, we propose to fine-tune prototypes on available training images to boost performance and learn differences between similar classes, such as aircraft types. We perform extensive evaluations on two remote sensing datasets containing challenging and rare objects. Moreover, we study the performance of both visual and image-text features, namely DINOv2 and CLIP, including two CLIP models specifically tailored for remote sensing applications. Results indicate that visual features are largely superior to vision-language models, as the latter lack the necessary domain-specific vocabulary. Lastly, the developed detector outperforms fully supervised and few-shot methods evaluated on the SIMD and DIOR datasets, despite minimal training parameters.

arxiv情報

著者 Xavier Bou,Gabriele Facciolo,Rafael Grompone von Gioi,Jean-Michel Morel,Thibaud Ehret
発行日 2024-03-08 15:20:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク