Fast Fourier Convolution Based Remote Sensor Image Object Detection for Earth Observation

要約

遠隔センサーによる物体検出は、地球観測にとって重要な技術であり、森林火災の監視や海洋監視など、さまざまなタスクに使用されています。
画像オブジェクト検出技術は、大きな発展にもかかわらず、小さなオブジェクトのピクセル数が限られているため、リモート センサー画像や小さなオブジェクトを処理するのに苦労しています。
多数の既存の研究により、小さなオブジェクトの検出を促進する効果的な方法は、空間コンテキストを導入することであることが実証されています。
一方、画像分類に関する最近の研究では、スペクトル畳み込み操作は、空間ドメインよりも周波数ドメインで長期的な空間依存性をより効率的に認識できることが示されています。
この観察に着想を得て、リモート センシング オブジェクト検出用の周波数認識機能ピラミッド フレームワーク (FFPF) を提案します。これは、新しい周波数認識 ResNet (F-ResNet) とバイラテラル スペクトル認識機能ピラミッド ネットワーク (BS-FPN) で構成されます。
)。
具体的には、F-ResNet は、周波数領域の畳み込みをバックボーンの各段階にプラグインし、小さなオブジェクトのより豊富な特徴を抽出することにより、スペクトル コンテキスト情報を認識するために提案されています。
私たちの知る限り、これは周波数領域畳み込みをリモートセンシングオブジェクト検出タスクに導入した最初の作業です。
さらに、BSFPN は、バイラテラル サンプリング戦略とスキッピング接続を使用して、F-ResNet からのスペクトル コンテキスト情報の可能性を解き放つために、さまざまなスケールでオブジェクトの特徴の関連付けをより適切にモデル化するように設計されています。
光学リモート センシング画像データセット (DIOR および DOTA) におけるオブジェクト検出のための広範な実験が行われます。
実験結果は、我々の方法の優れた性能を示しています。
トリックなしで平均精度 (mAP) を達成します。

要約(オリジナル)

Remote sensor image object detection is an important technology for Earth observation, and is used in various tasks such as forest fire monitoring and ocean monitoring. Image object detection technology, despite the significant developments, is struggling to handle remote sensor images and small-scale objects, due to the limited pixels of small objects. Numerous existing studies have demonstrated that an effective way to promote small object detection is to introduce the spatial context. Meanwhile, recent researches for image classification have shown that spectral convolution operations can perceive long-term spatial dependence more efficiently in the frequency domain than spatial domain. Inspired by this observation, we propose a Frequency-aware Feature Pyramid Framework (FFPF) for remote sensing object detection, which consists of a novel Frequency-aware ResNet (F-ResNet) and a Bilateral Spectral-aware Feature Pyramid Network (BS-FPN). Specifically, the F-ResNet is proposed to perceive the spectral context information by plugging the frequency domain convolution into each stage of the backbone, extracting richer features of small objects. To the best of our knowledge, this is the first work to introduce frequency-domain convolution into remote sensing object detection task. In addition, the BSFPN is designed to use a bilateral sampling strategy and skipping connection to better model the association of object features at different scales, towards unleashing the potential of the spectral context information from F-ResNet. Extensive experiments are conducted for object detection in the optical remote sensing image dataset (DIOR and DOTA). The experimental results demonstrate the excellent performance of our method. It achieves an average accuracy (mAP) without any tricks.

arxiv情報

著者 Gu Lingyun,Eugene Popov,Dong Ge
発行日 2022-09-01 15:50:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク