Scale-wise Bidirectional Alignment Network for Referring Remote Sensing Image Segmentation

要約

リモート センシング画像セグメンテーション (RRSIS) を参照する目的は、自然言語表現を介して航空画像内の特定のピクセル レベルの領域を抽出することです。
最近の進歩、特にトランスフォーマーベースの融合設計は、この分野で目覚ましい進歩を示しています。
しかし、既存の方法は主に、クロスモーダル融合段階で言語を意識したガイダンスを使用して視覚的特徴を洗練することに焦点を当てており、補完的な視覚から言語への流れは無視されています。
この制限により、多くの場合、無関係な表現や次善の表現が生じます。
さらに、航空画像内の地上物体の空間スケールが多様であるため、テキスト入力を条件とした場合、既存のモデルの視覚認識能力に重大な課題が生じます。
この論文では、RRSIS のこれらの課題に対処するために、スケールワイズ双方向アライメント ネットワーク (SBANet) と呼ばれる革新的なフレームワークを提案します。
具体的には、学習可能なクエリ トークンを使用して双方向アライメント モジュール (BAM) を設計し、視覚的および言語的特徴を選択的かつ効果的に表現し、キー トークンに関連付けられた領域を強調します。
BAM は動的な機能選択ブロックでさらに強化されており、マクロ レベルとミクロ レベルの両方の視覚機能を提供するように設計されており、グローバル コンテキストとローカルの詳細を保持して、より効果的なクロスモーダル インタラクションを促進します。
さらに、SBANet には、エンコーダーとデコーダーの間のギャップを埋めるためにテキスト条件付きチャネルと空間アグリゲーターが組み込まれており、複雑な航空シナリオにおけるスケールを超えた情報交換が強化されます。
広範な実験により、私たちの提案した方法が、RRSIS-D および RefSegRS データセットに対する以前の最先端の方法と比較して、量的および定性的に優れたパフォーマンスを達成することが実証されました。
コードは公開後に公開されます。

要約(オリジナル)

The goal of referring remote sensing image segmentation (RRSIS) is to extract specific pixel-level regions within an aerial image via a natural language expression. Recent advancements, particularly Transformer-based fusion designs, have demonstrated remarkable progress in this domain. However, existing methods primarily focus on refining visual features using language-aware guidance during the cross-modal fusion stage, neglecting the complementary vision-to-language flow. This limitation often leads to irrelevant or suboptimal representations. In addition, the diverse spatial scales of ground objects in aerial images pose significant challenges to the visual perception capabilities of existing models when conditioned on textual inputs. In this paper, we propose an innovative framework called Scale-wise Bidirectional Alignment Network (SBANet) to address these challenges for RRSIS. Specifically, we design a Bidirectional Alignment Module (BAM) with learnable query tokens to selectively and effectively represent visual and linguistic features, emphasizing regions associated with key tokens. BAM is further enhanced with a dynamic feature selection block, designed to provide both macro- and micro-level visual features, preserving global context and local details to facilitate more effective cross-modal interaction. Furthermore, SBANet incorporates a text-conditioned channel and spatial aggregator to bridge the gap between the encoder and decoder, enhancing cross-scale information exchange in complex aerial scenarios. Extensive experiments demonstrate that our proposed method achieves superior performance in comparison to previous state-of-the-art methods on the RRSIS-D and RefSegRS datasets, both quantitatively and qualitatively. The code will be released after publication.

arxiv情報

著者 Kun Li,George Vosselman,Michael Ying Yang
発行日 2025-01-06 14:49:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク