Referring Remote Sensing Image Segmentation via Bidirectional Alignment Guided Joint Prediction

要約

リモートセンシング画像セグメンテーション(RRSIS)を参照することは、生態学的監視、都市計画、災害管理に不可欠であり、テキストの説明によって導かれるリモートセンシング画像でのオブジェクトの正確なセグメンテーションを必要とします。
このタスクは、多様なカテゴリと小さなターゲットを備えたリモートセンシング画像の高い空間分解能と幅広いカバレッジ、およびぼやけたエッジを持つクラスター化された不明確なターゲットの存在により、かなりのビジョン言語ギャップ、高い空間分解能と幅広いカバレッジのために、ユニークな挑戦です。
これらの問題に取り組むために、ビジョン言語のギャップを埋め、マルチスケールの特徴の相互作用を強化し、微調整されたオブジェクトの分化を改善するために設計された新しいフレームワークである\ Oursを提案します。
具体的には、\私たちは以下を紹介します。(1)改善された視覚言語特徴アライメントのための双方向空間相関(BSC)、(2)ターゲットバックグラウンドのTwinstreamデコーダー(T-BTD)は、ターゲットと非ターゲットを正確に区別するための、および(
3)堅牢なマルチモーダル機能の再構築のためのデュアルモーダルオブジェクト学習戦略(D-MOLS)。
ベンチマークデータセットでの広範な実験refsegrsおよびrrsis-dは、\我々が最先端のパフォーマンスを達成することを示しています。
具体的には、2つのデータセットでそれぞれ全体のIou(OIOU)を3.76パーセントポイント(80.57)および1.44パーセントポイント(79.23)に改善します。
さらに、平均IOU(MIOU)の以前の方法(67.95)および1.84パーセントポイント(66.04)よりも優れており、RRSIのコア課題に正確さと堅牢性を高めて効果的に対処します。

要約(オリジナル)

Referring Remote Sensing Image Segmentation (RRSIS) is critical for ecological monitoring, urban planning, and disaster management, requiring precise segmentation of objects in remote sensing imagery guided by textual descriptions. This task is uniquely challenging due to the considerable vision-language gap, the high spatial resolution and broad coverage of remote sensing imagery with diverse categories and small targets, and the presence of clustered, unclear targets with blurred edges. To tackle these issues, we propose \ours, a novel framework designed to bridge the vision-language gap, enhance multi-scale feature interaction, and improve fine-grained object differentiation. Specifically, \ours introduces: (1) the Bidirectional Spatial Correlation (BSC) for improved vision-language feature alignment, (2) the Target-Background TwinStream Decoder (T-BTD) for precise distinction between targets and non-targets, and (3) the Dual-Modal Object Learning Strategy (D-MOLS) for robust multimodal feature reconstruction. Extensive experiments on the benchmark datasets RefSegRS and RRSIS-D demonstrate that \ours achieves state-of-the-art performance. Specifically, \ours improves the overall IoU (oIoU) by 3.76 percentage points (80.57) and 1.44 percentage points (79.23) on the two datasets, respectively. Additionally, it outperforms previous methods in the mean IoU (mIoU) by 5.37 percentage points (67.95) and 1.84 percentage points (66.04), effectively addressing the core challenges of RRSIS with enhanced precision and robustness.

arxiv情報

著者 Tianxiang Zhang,Zhaokun Wen,Bo Kong,Kecheng Liu,Yisi Zhang,Peixian Zhuang,Jiangyun Li
発行日 2025-02-12 15:21:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク