RemoteNet: Remote Sensing Image Segmentation Network based on Global-Local Information

要約

リモートで撮影された画像は、複雑なシーンのため、スケールやオブジェクトの外観に大きなばらつきがあります。
セグメンテーションのためにグローバルおよびローカルのコンテキストで基礎となる属性を捕捉することは困難になります。
既存のネットワークは、背景が雑然としているため、固有の機能を捉えるのに苦労しています。
これらの問題に対処するために、リモートセンシング画像のセマンティックセグメンテーションのためのリモートセンシング画像セグメンテーションネットワークRemoteNetを提案します。
トランスフォーマーと畳み込みメカニズムの利点を活用して、グローバルおよびローカルの特徴を捕捉します。
RemoteNet は、マルチスケール機能を使用するエンコーダー/デコーダー設計です。
これらの特徴を融合するためのチャネルごとの注意スコアを生成するための注意マップ モジュールを構築します。
デコード段階でのロバストな表現の学習をサポートするために、デコーダ ネットワーク内にグローバル-ローカル変換ブロック (GLTB) を構築します。
さらに、浅いステージのエンコーダー機能とデコーダーの最も深い GLTB 機能の融合出力を改良するための機能改良モジュールを設計しました。
2 つの公開データセットに関する実験結果は、提案されている RemoteNet の有効性を示しています。

要約(オリジナル)

Remotely captured images possess an immense scale and object appearance variability due to the complex scene. It becomes challenging to capture the underlying attributes in the global and local context for their segmentation. Existing networks struggle to capture the inherent features due to the cluttered background. To address these issues, we propose a remote sensing image segmentation network, RemoteNet, for semantic segmentation of remote sensing images. We capture the global and local features by leveraging the benefits of the transformer and convolution mechanisms. RemoteNet is an encoder-decoder design that uses multi-scale features. We construct an attention map module to generate channel-wise attention scores for fusing these features. We construct a global-local transformer block (GLTB) in the decoder network to support learning robust representations during a decoding phase. Further, we designed a feature refinement module to refine the fused output of the shallow stage encoder feature and the deepest GLTB feature of the decoder. Experimental findings on the two public datasets show the effectiveness of the proposed RemoteNet.

arxiv情報

著者 Satyawant Kumar,Abhishek Kumar,Dong-Gyu Lee
発行日 2023-08-14 13:18:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク