MutDet: Mutually Optimizing Pre-training for Remote Sensing Object Detection

要約

DETR シリーズ検出器の検出事前トレーニング方法は、DETReg などの自然シーンで広く研究されています。
ただし、リモート センシング シーンでは、検出の事前トレーニングはまだ解明されていません。
既存の事前トレーニング方法では、事前トレーニングされたバックボーンから抽出されたオブジェクトの埋め込みと検出器の特徴の間の位置合わせが重要です。
ただし、特徴抽出方法の違いにより、顕著な特徴の不一致が依然として存在し、事前トレーニングのパフォーマンスを妨げます。
複雑な環境やより高密度に分散した物体を含むリモート センシング画像では、不一致がさらに悪化します。
この研究では、MutDet と呼ばれる、リモート センシング オブジェクト検出のための新しい相互最適化事前トレーニング フレームワークを提案します。
MutDet では、この課題に対する体系的な解決策を提案します。
第一に、オブジェクトの埋め込みと検出器の特徴を最後のエンコーダ層で双方向に融合し、それらの情報の相互作用を強化する相互強化モジュールを提案します。第二に、この位置合わせプロセスをソフトにガイドすると同時に検出器の特徴の識別性を強化するために、対照的な位置合わせ損失が使用されます。
最後に、強化モジュールの導入によって生じるタスクギャップを軽減するために、補助シャムヘッドを設計します。
さまざまな設定での包括的な実験により、新しい最先端の転送パフォーマンスが実証されました。
この改善は、データ量が限られている場合に特に顕著です。
DIOR-R データの 10% を使用すると、MutDet は AP50 で DetReg を 6.1% 改善します。
コードとモデルは https://github.com/floatingstarZ/MutDet で入手できます。

要約(オリジナル)

Detection pre-training methods for the DETR series detector have been extensively studied in natural scenes, e.g., DETReg. However, the detection pre-training remains unexplored in remote sensing scenes. In existing pre-training methods, alignment between object embeddings extracted from a pre-trained backbone and detector features is significant. However, due to differences in feature extraction methods, a pronounced feature discrepancy still exists and hinders the pre-training performance. The remote sensing images with complex environments and more densely distributed objects exacerbate the discrepancy. In this work, we propose a novel Mutually optimizing pre-training framework for remote sensing object Detection, dubbed as MutDet. In MutDet, we propose a systemic solution against this challenge. Firstly, we propose a mutual enhancement module, which fuses the object embeddings and detector features bidirectionally in the last encoder layer, enhancing their information interaction.Secondly, contrastive alignment loss is employed to guide this alignment process softly and simultaneously enhances detector features’ discriminativity. Finally, we design an auxiliary siamese head to mitigate the task gap arising from the introduction of enhancement module. Comprehensive experiments on various settings show new state-of-the-art transfer performance. The improvement is particularly pronounced when data quantity is limited. When using 10% of the DIOR-R data, MutDet improves DetReg by 6.1% in AP50. Codes and models are available at: https://github.com/floatingstarZ/MutDet.

arxiv情報

著者 Ziyue Huang,Yongchao Feng,Qingjie Liu,Yunhong Wang
発行日 2024-07-24 14:11:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク