要約
リモートセンシング画像セグメンテーション(RRSIS)を参照することは、テキストの説明に基づいて、リモートセンシング(RS)画像のターゲットオブジェクトをセグメント化することを目的としています。
セグメントでは、モデル2(SAM 2)はさまざまなセグメンテーションタスクで顕著なパフォーマンスを示していますが、RRSISへのアプリケーションは、テキストと説明されているRSシーンを理解し、テキストの説明から効果的なプロンプトを生成するなど、いくつかの課題を提示します。
これらの問題に対処するために、RS2-SAM 2を提案します。RS2-SAM 2は、適応されたRS機能とテキスト機能を調整し、擬似マスクベースの密度の高いプロンプトを提供し、境界制約を施行することにより、SAM 2をRRSIに適応させる新しいフレームワークです。
具体的には、まずユニオンエンコーダーを採用して、視覚とテキストの入力を共同でエンコードし、整列した視覚とテキストの埋め込み、マルチモーダルクラスのトークンを生成します。
次に、双方向の階層融合モジュールを設計して、SAM 2をRSシーンに適応させ、視覚的に視覚的に視覚的に強化されたテキスト埋め込みに合わせて、テキスト記載のRSシーンのモデルの解釈を改善します。
さらに、マスクプロンプトジェネレーターが導入され、視覚的な埋め込みとクラストークンを入力として採取し、SAM 2の密なプロンプトとして擬似マスクを生成します。
いくつかのRRSISベンチマークでの実験結果は、RS2-SAM 2が最先端のパフォーマンスを達成することを示しています。
要約(オリジナル)
Referring Remote Sensing Image Segmentation (RRSIS) aims to segment target objects in remote sensing (RS) images based on textual descriptions. Although Segment Anything Model 2 (SAM 2) has shown remarkable performance in various segmentation tasks, its application to RRSIS presents several challenges, including understanding the text-described RS scenes and generating effective prompts from text descriptions. To address these issues, we propose RS2-SAM 2, a novel framework that adapts SAM 2 to RRSIS by aligning the adapted RS features and textual features, providing pseudo-mask-based dense prompts, and enforcing boundary constraints. Specifically, we first employ a union encoder to jointly encode the visual and textual inputs, generating aligned visual and text embeddings as well as multimodal class tokens. Then, we design a bidirectional hierarchical fusion module to adapt SAM 2 to RS scenes and align adapted visual features with the visually enhanced text embeddings, improving the model’s interpretation of text-described RS scenes. Additionally, a mask prompt generator is introduced to take the visual embeddings and class tokens as input and produce a pseudo-mask as the dense prompt of SAM 2. To further refine segmentation, we introduce a text-guided boundary loss to optimize segmentation boundaries by computing text-weighted gradient differences. Experimental results on several RRSIS benchmarks demonstrate that RS2-SAM 2 achieves state-of-the-art performance.
arxiv情報
著者 | Fu Rong,Meng Lan,Qian Zhang,Lefei Zhang |
発行日 | 2025-05-20 15:37:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google