Multimodal Fusion Transformer for Remote Sensing Image Classification

要約

ビジョン トランスフォーマー (ViT) は、畳み込みニューラル ネットワーク (CNN) と比較した場合のパフォーマンスが有望であるため、画像分類タスクでトレンドになっています。
その結果、多くの研究者がハイパースペクトル画像 (HSI) 分類タスクに ViT を組み込もうと試みてきました。
CNN に近い満足のいくパフォーマンスを達成するには、トランスフォーマーに必要なパラメータは少なくなります。
ViT および他の同様のトランスフォーマーは、ランダムに初期化され、うまく一般化できないことが多い外部分類 (CLS) トークンを使用しますが、光検出および測距 (LiDAR) などのマルチモーダル データセットの他のソースは、次の方法でこれらのモデルを改善できる可能性を提供します。
CLS。
この論文では、HSI 土地被覆分類のためのマルチヘッド クロス パッチ アテンション (mCrossPA) を構成する新しいマルチモーダル フュージョン トランスフォーマー (MFT) ネットワークを紹介します。
当社の mCrossPA は、トランス エンコーダの HSI に加えて、他の補完情報ソースを利用して、より良い一般化を実現します。
トークン化の概念は、CLS および HSI パッチ トークンの生成に使用され、縮小された階層的な特徴空間での {特有の表現} の学習に役立ちます。
{広く使用されているベンチマーク} データセット (つまり、ヒューストン大学、トレント大学、南ミシシッピ ガルフパーク大学 (MUUFL)、およびアウクスバーグ大学) で広範な実験が実行されています。
提案された MFT モデルの結果を、他の最先端の変換器、古典的な CNN、および従来の分類子モデルと比較します。
提案されたモデルによって達成される優れたパフォーマンスは、マルチヘッド クロス パッチ アテンションの使用によるものです。
ソース コードは \url{https://github.com/AnkurDeria/MFT} で公開されます。}

要約(オリジナル)

Vision transformers (ViTs) have been trending in image classification tasks due to their promising performance when compared to convolutional neural networks (CNNs). As a result, many researchers have tried to incorporate ViTs in hyperspectral image (HSI) classification tasks. To achieve satisfactory performance, close to that of CNNs, transformers need fewer parameters. ViTs and other similar transformers use an external classification (CLS) token which is randomly initialized and often fails to generalize well, whereas other sources of multimodal datasets, such as light detection and ranging (LiDAR) offer the potential to improve these models by means of a CLS. In this paper, we introduce a new multimodal fusion transformer (MFT) network which comprises a multihead cross patch attention (mCrossPA) for HSI land-cover classification. Our mCrossPA utilizes other sources of complementary information in addition to the HSI in the transformer encoder to achieve better generalization. The concept of tokenization is used to generate CLS and HSI patch tokens, helping to learn a {distinctive representation} in a reduced and hierarchical feature space. Extensive experiments are carried out on {widely used benchmark} datasets {i.e.,} the University of Houston, Trento, University of Southern Mississippi Gulfpark (MUUFL), and Augsburg. We compare the results of the proposed MFT model with other state-of-the-art transformers, classical CNNs, and conventional classifiers models. The superior performance achieved by the proposed model is due to the use of multihead cross patch attention. The source code will be made available publicly at \url{https://github.com/AnkurDeria/MFT}.}

arxiv情報

著者 Swalpa Kumar Roy,Ankur Deria,Danfeng Hong,Behnood Rasti,Antonio Plaza,Jocelyn Chanussot
発行日 2023-06-20 17:58:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク