Fast Fourier Convolution Based Remote Sensor Image Object Detection for Earth Observation


画像オブジェクト検出技術は、大きな発展にもかかわらず、小さなオブジェクトのピクセル数が限られているため、リモート センサー画像や小さなオブジェクトを処理するのに苦労しています。
この観察に着想を得て、リモート センシング オブジェクト検出用の周波数認識機能ピラミッド フレームワーク (FFPF) を提案します。これは、新しい周波数認識 ResNet (F-ResNet) とバイラテラル スペクトル認識機能ピラミッド ネットワーク (BS-FPN) で構成されます。
具体的には、F-ResNet は、周波数領域の畳み込みをバックボーンの各段階にプラグインし、小さなオブジェクトのより豊富な特徴を抽出することにより、スペクトル コンテキスト情報を認識するために提案されています。
さらに、BSFPN は、バイラテラル サンプリング戦略とスキッピング接続を使用して、F-ResNet からのスペクトル コンテキスト情報の可能性を解き放つために、さまざまなスケールでオブジェクトの特徴の関連付けをより適切にモデル化するように設計されています。
光学リモート センシング画像データセット (DIOR および DOTA) におけるオブジェクト検出のための広範な実験が行われます。
トリックなしで平均精度 (mAP) を達成します。


Remote sensor image object detection is an important technology for Earth observation, and is used in various tasks such as forest fire monitoring and ocean monitoring. Image object detection technology, despite the significant developments, is struggling to handle remote sensor images and small-scale objects, due to the limited pixels of small objects. Numerous existing studies have demonstrated that an effective way to promote small object detection is to introduce the spatial context. Meanwhile, recent researches for image classification have shown that spectral convolution operations can perceive long-term spatial dependence more efficiently in the frequency domain than spatial domain. Inspired by this observation, we propose a Frequency-aware Feature Pyramid Framework (FFPF) for remote sensing object detection, which consists of a novel Frequency-aware ResNet (F-ResNet) and a Bilateral Spectral-aware Feature Pyramid Network (BS-FPN). Specifically, the F-ResNet is proposed to perceive the spectral context information by plugging the frequency domain convolution into each stage of the backbone, extracting richer features of small objects. To the best of our knowledge, this is the first work to introduce frequency-domain convolution into remote sensing object detection task. In addition, the BSFPN is designed to use a bilateral sampling strategy and skipping connection to better model the association of object features at different scales, towards unleashing the potential of the spectral context information from F-ResNet. Extensive experiments are conducted for object detection in the optical remote sensing image dataset (DIOR and DOTA). The experimental results demonstrate the excellent performance of our method. It achieves an average accuracy (mAP) without any tricks.


著者 Gu Lingyun,Eugene Popov,Dong Ge
発行日 2022-09-01 15:50:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV パーマリンク