要約
高解像度のリモートセンシング画像でのターゲット検出は、小さなターゲットの認識精度が低く、計算コストが高いため、課題に直面しています。
変圧器アーキテクチャの計算の複雑さは画像解像度とともに2次に増加しますが、畳み込みニューラルネットワーク(CNN)アーキテクチャは、より深い畳み込み層を積み重ねて受容フィールドを拡大し、計算需要の爆発的な成長につながります。
これらの計算上の制約に対処するために、Mambaの線形複雑さを効率化するために活用します。
ただし、主に小さなターゲットが画像内の限られた領域を占有し、セマンティック情報が限られているため、Mambaのパフォーマンスは小さなターゲットの低下です。
これらの小さなターゲットを正確に識別するには、Mambaのグローバルな注意能力だけでなく、地元の細部の正確なキャプチャも必要です。
この目的のために、拡張された小さなターゲット検出(ESTD)モジュールと畳み込み上の注意RESSIOM GATE(CARG)モジュールを開発することにより、MAMBAを強化します。
ESTDモジュールは地元の細部をキャプチャするためにローカルな注意を強化し、Mambaに基づいて構築されたCargモジュールは空間的およびチャネルごとの情報を強調し、小さなターゲットの特徴的な表現をキャプチャするモデルの能力を集合的に改善します。
さらに、小さなターゲットのセマンティック表現を強調するために、マルチスペクトル融合用のマスク強化ピクセルレベルの融合(MEPF)モジュールを設計します。
要約(オリジナル)
Target detection in high-resolution remote sensing imagery faces challenges due to the low recognition accuracy of small targets and high computational costs. The computational complexity of the Transformer architecture increases quadratically with image resolution, while Convolutional Neural Networks (CNN) architectures are forced to stack deeper convolutional layers to expand their receptive fields, leading to an explosive growth in computational demands. To address these computational constraints, we leverage Mamba’s linear complexity for efficiency. However, Mamba’s performance declines for small targets, primarily because small targets occupy a limited area in the image and have limited semantic information. Accurate identification of these small targets necessitates not only Mamba’s global attention capabilities but also the precise capture of fine local details. To this end, we enhance Mamba by developing the Enhanced Small Target Detection (ESTD) module and the Convolutional Attention Residual Gate (CARG) module. The ESTD module bolsters local attention to capture fine-grained details, while the CARG module, built upon Mamba, emphasizes spatial and channel-wise information, collectively improving the model’s ability to capture distinctive representations of small targets. Additionally, to highlight the semantic representation of small targets, we design a Mask Enhanced Pixel-level Fusion (MEPF) module for multispectral fusion, which enhances target features by effectively fusing visible and infrared multimodal information.
arxiv情報
著者 | Qianqian Zhang,WeiJun Wang,Yunxing Liu,Li Zhou,Hao Zhao,Junshe An,Zihan Wang |
発行日 | 2025-05-23 15:20:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google