Long-Range Correlation Supervision for Land-Cover Classification from Remote Sensing Images

要約

長距離依存関係モデリングは、標準的な畳み込みの固有の局所性を補償するために、最新の深層学習ベースのセマンティック セグメンテーション手法、特に大規模なリモート センシング画像用に設計された手法で広く考慮されています。
ただし、これまでの研究では、注意メカニズムまたはトランスフォーマー モデルでモデル化された長距離依存関係は、客観的なグラウンド トゥルースからの明示的な監視ではなく、教師なし学習に基づいていました。
この論文では、教師あり長距離相関ネットワーク (SLCNet) と呼ばれる、土地被覆分類のための新しい教師あり長距離相関手法を提案します。この手法は、現在使用されている教師なし戦略よりも優れていることが示されています。
SLCNet では、同じカテゴリを共有するピクセルは相関性が高いと見なされ、異なるカテゴリを持つピクセルは関連性が低いと見なされます。これは、グラウンド トゥルース セマンティック セグメンテーション マップで利用可能なカテゴリ一貫性情報によって簡単に監視できます。
このような監視の下では、再調整された特徴は、その近さに関係なく、同じカテゴリのピクセルに対してはより一貫性があり、他のカテゴリのピクセルに対してはより識別力が高くなります。
大域的な長距離相関に欠けている詳細な情報を補完するために、エンコーダの長距離相関モジュールと並行して補助的な適応受容野特徴抽出モジュールを導入し、マルチサイズのオブジェクトの詳細な特徴表現をキャプチャします。
-スケールリモートセンシング画像。
さらに、マルチスケールの副出力監視とハイブリッド損失関数をローカルおよびグローバル制約として適用して、セグメンテーションの精度をさらに高めます。
実験は 3 つのリモート センシング データセットに対して行われました。
コンピューター ビジョン、医学、リモート センシングのコミュニティによる高度なセグメンテーション手法と比較して、SLCNet はすべてのデータセットで最先端のパフォーマンスを達成しました。

要約(オリジナル)

Long-range dependency modeling has been widely considered in modern deep learning based semantic segmentation methods, especially those designed for large-size remote sensing images, to compensate the intrinsic locality of standard convolutions. However, in previous studies, the long-range dependency, modeled with an attention mechanism or transformer model, has been based on unsupervised learning, instead of explicit supervision from the objective ground truth. In this paper, we propose a novel supervised long-range correlation method for land-cover classification, called the supervised long-range correlation network (SLCNet), which is shown to be superior to the currently used unsupervised strategies. In SLCNet, pixels sharing the same category are considered highly correlated and those having different categories are less relevant, which can be easily supervised by the category consistency information available in the ground truth semantic segmentation map. Under such supervision, the recalibrated features are more consistent for pixels of the same category and more discriminative for pixels of other categories, regardless of their proximity. To complement the detailed information lacking in the global long-range correlation, we introduce an auxiliary adaptive receptive field feature extraction module, parallel to the long-range correlation module in the encoder, to capture finely detailed feature representations for multi-size objects in multi-scale remote sensing images. In addition, we apply multi-scale side-output supervision and a hybrid loss function as local and global constraints to further boost the segmentation accuracy. Experiments were conducted on three remote sensing datasets. Compared with the advanced segmentation methods from the computer vision, medicine, and remote sensing communities, the SLCNet achieved a state-of-the-art performance on all the datasets.

arxiv情報

著者 Dawen Yu,Shunping Ji
発行日 2023-09-08 09:19:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク