Semantic Interleaving Global Channel Attention for Multilabel Remote Sensing Image Classification

要約

マルチラベルによるリモートセンシング画像分類(MLRSIC)の研究が盛んになってきている。複数のラベルの共起関係を追加情報として捉えることは、このタスクの性能を向上させるのに役立つ。現在の手法は、畳み込みニューラルネットワーク(CNN)の最終的な特徴量出力を制約するためにそれを用いることに焦点を合わせている。一方では、これらの方法は特徴表現を形成するためにラベルの相関を十分に利用していない。一方では、システムのラベルノイズ感度を上昇させ、ロバスト性に乏しい。本論文では、MLRSICのために、Semantic Interleaving Global Channel Attention (SIGNA)と呼ばれる新しい手法を提案する。まず、データセットの統計情報に従い、ラベル共起グラフを得る。ラベル共起グラフは最適な特徴表現を生成するためのグラフニューラルネットワーク(GNN)の入力として使用される。そして、意味的特徴と視覚的特徴をインターリーブし、画像の特徴表現を元の特徴空間から、ラベル関係を埋め込んだ意味的特徴空間へと導く。SIGNAは、より重要な視覚的特徴を抽出するために、新しい意味的特徴空間における特徴マップチャネルのグローバルな注意を喚起する。マルチヘッドSIGNAベースの特徴適応型重み付けネットワークは、プラグアンドプレイ方式でCNNのどの層にも作用するよう提案されている。リモートセンシング画像では、CNNを浅い層に挿入することで、より良い分類性能を達成することができる。我々は3つのデータセットで広範な実験的比較を行う。UCMデータセット、AIDデータセット、DFC15データセットである。実験の結果、提案するSIGNAは、最先端の(SOTA)手法と比較して、優れた分類性能を達成することが実証された。本論文のコードは、再現性研究のためにコミュニティに公開されることを特筆しておく。我々のコードは https://github.com/kyle-one/SIGNA で公開されている。

要約(オリジナル)

Multi-Label Remote Sensing Image Classification (MLRSIC) has received increasing research interest. Taking the cooccurrence relationship of multiple labels as additional information helps to improve the performance of this task. Current methods focus on using it to constrain the final feature output of a Convolutional Neural Network (CNN). On the one hand, these methods do not make full use of label correlation to form feature representation. On the other hand, they increase the label noise sensitivity of the system, resulting in poor robustness. In this paper, a novel method called Semantic Interleaving Global Channel Attention (SIGNA) is proposed for MLRSIC. First, the label co-occurrence graph is obtained according to the statistical information of the data set. The label co-occurrence graph is used as the input of the Graph Neural Network (GNN) to generate optimal feature representations. Then, the semantic features and visual features are interleaved, to guide the feature expression of the image from the original feature space to the semantic feature space with embedded label relations. SIGNA triggers global attention of feature maps channels in a new semantic feature space to extract more important visual features. Multihead SIGNA based feature adaptive weighting networks are proposed to act on any layer of CNN in a plug-and-play manner. For remote sensing images, better classification performance can be achieved by inserting CNN into the shallow layer. We conduct extensive experimental comparisons on three data sets: UCM data set, AID data set, and DFC15 data set. Experimental results demonstrate that the proposed SIGNA achieves superior classification performance compared to state-of-the-art (SOTA) methods. It is worth mentioning that the codes of this paper will be open to the community for reproducibility research. Our codes are available at https://github.com/kyle-one/SIGNA.

arxiv情報

著者 Yongkun Liu,Kesong Ni,Yuhan Zhang,Lijian Zhou,Kun Zhao
発行日 2022-08-04 12:28:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク