AeroGen: Enhancing Remote Sensing Object Detection with Diffusion-Driven Data Generation

要約

リモートセンシング画像オブジェクト検出(RSIOD)は、衛星または空中画像内の特定のオブジェクトを識別して特定することを目的としています。
ただし、現在のRSIODデータセットには、ラベル付きデータが不足しているため、現在の検出アルゴリズムのパフォーマンスが大幅に制限されています。
たとえば、既存の手法、たとえば、データの増強や半監視学習は、この希少性の問題をある程度緩和することができますが、それらは高品質のラベル付きデータに大きく依存し、まれなオブジェクトクラスではより悪化しています。
この問題に対処するために、このペーパーでは、RSIODに合わせたレイアウト制御可能な拡散生成モデル(つまり、エアロゲン)を提案します。
私たちの知る限り、Aerogenは、水平および回転したボックス条件生成を同時にサポートする最初のモデルであり、特定のレイアウトとオブジェクトのカテゴリ要件を満たす高品質の合成画像の生成を可能にします。
さらに、生成されたデータの多様性と品質の両方を強化するために、多様性条件付きジェネレーターとフィルタリングメカニズムを統合するエンドツーエンドのデータ増強フレームワークを提案します。
実験結果は、私たちの方法によって生成された合成データが高品質で多様性であることを示しています。
さらに、合成RSIODデータは、既存のRSIODモデルの検出性能を大幅に改善できます。つまり、Dior、Dior-R、およびHRSCデータセットのMAPメトリックは、それぞれ3.7%、4.3%、および2.43%改善されます。
このコードは、https://github.com/sonettoo/aerogenで入手できます。

要約(オリジナル)

Remote sensing image object detection (RSIOD) aims to identify and locate specific objects within satellite or aerial imagery. However, there is a scarcity of labeled data in current RSIOD datasets, which significantly limits the performance of current detection algorithms. Although existing techniques, e.g., data augmentation and semi-supervised learning, can mitigate this scarcity issue to some extent, they are heavily dependent on high-quality labeled data and perform worse in rare object classes. To address this issue, this paper proposes a layout-controllable diffusion generative model (i.e. AeroGen) tailored for RSIOD. To our knowledge, AeroGen is the first model to simultaneously support horizontal and rotated bounding box condition generation, thus enabling the generation of high-quality synthetic images that meet specific layout and object category requirements. Additionally, we propose an end-to-end data augmentation framework that integrates a diversity-conditioned generator and a filtering mechanism to enhance both the diversity and quality of generated data. Experimental results demonstrate that the synthetic data produced by our method are of high quality and diversity. Furthermore, the synthetic RSIOD data can significantly improve the detection performance of existing RSIOD models, i.e., the mAP metrics on DIOR, DIOR-R, and HRSC datasets are improved by 3.7%, 4.3%, and 2.43%, respectively. The code is available at https://github.com/Sonettoo/AeroGen.

arxiv情報

著者 Datao Tang,Xiangyong Cao,Xuan Wu,Jialin Li,Jing Yao,Xueru Bai,Dongsheng Jiang,Yin Li,Deyu Meng
発行日 2025-02-24 15:22:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク