Selective Transformer for Hyperspectral Image Classification

要約

Transformer は、ハイパースペクトル画像 (HSI) 分類の分野で満足のいく結果を達成しました。
しかし、既存の Transformer モデルは、多様な土地被覆タイプと豊富なスペクトル情報を特徴とする HSI シーンを扱う際に 2 つの重要な課題に直面しています。(1) 固定された受容野表現は効果的なコンテキスト情報を見落とします。
(2) 冗長な自己注意機能表現。
これらの制限に対処するために、HSI 分類用の新しい選択トランスフォーマー (SFormer) を提案します。
SFormer は、最も関連性の高い特徴を優先することで冗長データの影響を軽減しながら、空間およびスペクトルの両方のコンテキスト情報を取得するための受容野を動的に選択するように設計されています。
これにより、HSI の土地被覆を高精度に分類できるようになります。
具体的には、最初にカーネル選択変換ブロック (KSTB) を利用して適切な受容野範囲を動的に選択し、空間スペクトル特徴を効果的に抽出します。
さらに、最も重要なトークンを取得するために、各クエリのアテンション スコアのランキングに基づいて最も関連性の高いトークンを選択するトークン選択トランスフォーマー ブロック (TSTB) が導入されています。
4 つのベンチマーク HSI データセットに対する広範な実験により、提案された SFormer が最先端の HSI 分類モデルよりも優れていることが実証されました。
コードは公開されます。

要約(オリジナル)

Transformer has achieved satisfactory results in the field of hyperspectral image (HSI) classification. However, existing Transformer models face two key challenges when dealing with HSI scenes characterized by diverse land cover types and rich spectral information: (1) fixed receptive field representation overlooks effective contextual information; (2) redundant self-attention feature representation. To address these limitations, we propose a novel Selective Transformer (SFormer) for HSI classification. The SFormer is designed to dynamically select receptive fields for capturing both spatial and spectral contextual information, while mitigating the impact of redundant data by prioritizing the most relevant features. This enables a highly accurate classification of the land covers of the HSI. Specifically, a Kernel Selective Transformer Block (KSTB) is first utilized to dynamically select an appropriate receptive field range to effectively extract spatial-spectral features. Furthermore, to capture the most crucial tokens, a Token Selective Transformer Block (TSTB) is introduced, which selects the most relevant tokens based on the ranking of attention scores for each query. Extensive experiments on four benchmark HSI datasets demonstrate that the proposed SFormer outperforms the state-of-the-art HSI classification models. The codes will be released.

arxiv情報

著者 Yichu Xu,Di Wang,Lefei Zhang,Liangpei Zhang
発行日 2024-10-07 14:28:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク