Self-Training Guided Disentangled Adaptation for Cross-Domain Remote Sensing Image Semantic Segmentation

要約

深層畳み込みニューラル ネットワーク (DCNN) ベースのリモート センシング (RS) 画像セマンティック セグメンテーション テクノロジは、地理的要素分析などの多くの実世界のアプリケーションで使用され、大きな成功を収めています。
ただし、特定のシーンの注釈付きデータへの強い依存により、DCNN がさまざまな RS シーンに適合することが困難になります。
この問題を解決するために、最近の研究では、クロスドメイン RS 画像セマンティック セグメンテーション タスクに徐々に焦点が当てられています。
このタスクでは、異なる地上サンプリング距離、リモート センシング センサーの変動、および異なる地理的景観が、ソース画像とターゲット画像の間で劇的なドメイン シフトを引き起こす 3 つの主な要因です。
ドメイン シフトの悪影響を軽減するために、セルフ トレーニング ガイド付きのもつれのない適応ネットワーク (ST-DASegNet) を提案します。
最初に、ソース イメージとターゲット イメージの両方のソース スタイルとターゲット スタイルの特徴をそれぞれ抽出するために、ソース スチューデント バックボーンとターゲット スチューデント バックボーンを提案します。
各バックボーンの中間出力機能マップに向けて、アラインメントに敵対的学習を採用します。
次に、普遍的な特徴を抽出し、ソーススタイルとターゲットスタイルの特徴の明確な特徴を精製するために、ドメインのもつれを解くモジュールを提案します。
最後に、これら 2 つの機能が融合され、ソース スチューデント デコーダーとターゲット スチューデント デコーダーの入力として提供され、最終的な予測が生成されます。
提案されたドメインのもつれのないモジュールに基づいて、敵対的最適化中の不安定性と不利な影響を緩和するために、指数移動平均(EMA)ベースのクロスドメイン分離自己トレーニングメカニズムをさらに提案します。
ベンチマーク RS データセットでの広範な実験と分析により、ST-DASegNet がクロスドメイン RS 画像セマンティック セグメンテーション タスクで以前の方法よりも優れており、最先端 (SOTA) の結果を達成することが示されています。
コードは https://github.com/cv516Buaa/ST-DASegNet で入手できます。

要約(オリジナル)

Deep convolutional neural networks (DCNNs) based remote sensing (RS) image semantic segmentation technology has achieved great success used in many real-world applications such as geographic element analysis. However, strong dependency on annotated data of specific scene makes it hard for DCNNs to fit different RS scenes. To solve this problem, recent works gradually focus on cross-domain RS image semantic segmentation task. In this task, different ground sampling distance, remote sensing sensor variation and different geographical landscapes are three main factors causing dramatic domain shift between source and target images. To decrease the negative influence of domain shift, we propose a self-training guided disentangled adaptation network (ST-DASegNet). We first propose source student backbone and target student backbone to respectively extract the source-style and target-style feature for both source and target images. Towards the intermediate output feature maps of each backbone, we adopt adversarial learning for alignment. Then, we propose a domain disentangled module to extract the universal feature and purify the distinct feature of source-style and target-style features. Finally, these two features are fused and served as input of source student decoder and target student decoder to generate final predictions. Based on our proposed domain disentangled module, we further propose exponential moving average (EMA) based cross-domain separated self-training mechanism to ease the instability and disadvantageous effect during adversarial optimization. Extensive experiments and analysis on benchmark RS datasets show that ST-DASegNet outperforms previous methods on cross-domain RS image semantic segmentation task and achieves state-of-the-art (SOTA) results. Our code is available at https://github.com/cv516Buaa/ST-DASegNet.

arxiv情報

著者 Qi Zhao,Shuchang Lyu,Binghao Liu,Lijiang Chen,Hongbo Zhao
発行日 2023-01-13 13:11:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク