要約
リモート センシング画像における物体検出は、さまざまな地球観測アプリケーションで重要な役割を果たします。
ただし、自然風景の画像での物体検出とは異なり、さまざまな地形にわたって小さな、ほとんど見えない物体が大量に存在するため、このタスクは特に困難です。
これらの課題に対処するために、マルチモーダル学習を使用してさまざまなデータ モダリティの特徴を統合し、それによって検出精度を向上させることができます。
それにもかかわらず、マルチモーダル学習のパフォーマンスは、ラベル付きデータセットの限られたサイズによって制限されることがよくあります。
この論文では、事前トレーニング手法としてマスク画像モデリング (MIM) を使用し、ラベルなしデータの自己教師あり学習を活用して検出パフォーマンスを向上させることを提案します。
ただし、コンテキスト情報なしでマスクされたトークンを使用する MAE などの従来の MIM は、画像の他の部分との相互作用が欠如しているため、きめの細かい詳細をキャプチャするのが困難です。
これに対処するために、異なるトークン間の相互作用を確立できる新しい対話型 MIM 手法を提案します。これは、リモート センシングにおける物体検出に特に有益です。
広範なアブレーション研究と評価により、私たちのアプローチの有効性が実証されています。
要約(オリジナル)
Object detection in remote sensing imagery plays a vital role in various Earth observation applications. However, unlike object detection in natural scene images, this task is particularly challenging due to the abundance of small, often barely visible objects across diverse terrains. To address these challenges, multimodal learning can be used to integrate features from different data modalities, thereby improving detection accuracy. Nonetheless, the performance of multimodal learning is often constrained by the limited size of labeled datasets. In this paper, we propose to use Masked Image Modeling (MIM) as a pre-training technique, leveraging self-supervised learning on unlabeled data to enhance detection performance. However, conventional MIM such as MAE which uses masked tokens without any contextual information, struggles to capture the fine-grained details due to a lack of interactions with other parts of image. To address this, we propose a new interactive MIM method that can establish interactions between different tokens, which is particularly beneficial for object detection in remote sensing. The extensive ablation studies and evluation demonstrate the effectiveness of our approach.
arxiv情報
著者 | Minh-Duc Vu,Zuheng Ming,Fangchen Feng,Bissmella Bahaduri,Anissa Mokraoui |
発行日 | 2024-09-13 14:50:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google