Local-to-Global Cross-Modal Attention-Aware Fusion for HSI-X Semantic Segmentation

要約

ハイパースペクトル画像 (HSI) 分類は、最近パフォーマンスのボトルネックに達しています。
マルチモーダル データ フュージョンは、補足モダリティ (X モダリティ) から豊富な補完情報を提供することで、このボトルネックを克服する有望なアプローチとして浮上しています。
ただし、さまざまなセンシング モダリティ間で一般化できる、包括的なクロスモーダル インタラクションと融合を実現することは、さまざまなモダリティのイメージング センサー、解像度、コンテンツの違いにより困難です。
この研究では、効率、精度、一般化可能性を共同で考慮する HSI-X 分類のためのローカルからグローバルへのクロスモーダル アテンションアウェア フュージョン (LoGoCAF) フレームワークを提案します。
LoGoCAF は、HSI および X モダリティから情報を学習するために、ピクセル間の 2 ブランチ セマンティック セグメンテーション アーキテクチャを採用しています。
LoGoCAF のパイプラインは、ローカルからグローバルへのエンコーダーと軽量の多層パーセプトロン (MLP) デコーダーで構成されます。
エンコーダでは、畳み込みを使用して浅い層の局所的で高解像度の細かい詳細をエンコードし、トランスフォーマーを使用してより深い層でグローバルな低解像度の粗い特徴を統合します。
MLP デコーダは、特徴の融合と予測のためにエンコーダからの情報を集約します。
特に、機能拡張モジュール (FEM) と機能相互作用および融合モジュール (FIFM) という 2 つのクロスモダリティ モジュールが各エンコーダ ステージに導入されています。
FEM は、方向認識、位置依存、チャネルごとの次元にわたって他のモダリティの機能を組み合わせることにより、補完的な情報を強化するために使用されます。
機能が強化された FIFM は、最終的な意味予測のためにモダリティを超えた情報の相互作用と融合を促進するように設計されています。
広範な実験により、LoGoCAF が優れたパフォーマンスを達成し、うまく一般化できることが実証されました。
コードは公開されます。

要約(オリジナル)

Hyperspectral image (HSI) classification has recently reached its performance bottleneck. Multimodal data fusion is emerging as a promising approach to overcome this bottleneck by providing rich complementary information from the supplementary modality (X-modality). However, achieving comprehensive cross-modal interaction and fusion that can be generalized across different sensing modalities is challenging due to the disparity in imaging sensors, resolution, and content of different modalities. In this study, we propose a Local-to-Global Cross-modal Attention-aware Fusion (LoGoCAF) framework for HSI-X classification that jointly considers efficiency, accuracy, and generalizability. LoGoCAF adopts a pixel-to-pixel two-branch semantic segmentation architecture to learn information from HSI and X modalities. The pipeline of LoGoCAF consists of a local-to-global encoder and a lightweight multilayer perceptron (MLP) decoder. In the encoder, convolutions are used to encode local and high-resolution fine details in shallow layers, while transformers are used to integrate global and low-resolution coarse features in deeper layers. The MLP decoder aggregates information from the encoder for feature fusion and prediction. In particular, two cross-modality modules, the feature enhancement module (FEM) and the feature interaction and fusion module (FIFM), are introduced in each encoder stage. The FEM is used to enhance complementary information by combining the feature from the other modality across direction-aware, position-sensitive, and channel-wise dimensions. With the enhanced features, the FIFM is designed to promote cross-modality information interaction and fusion for the final semantic prediction. Extensive experiments demonstrate that our LoGoCAF achieves superior performance and generalizes well. The code will be made publicly available.

arxiv情報

著者 Xuming Zhang,Naoto Yokoya,Xingfa Gu,Qingjiu Tian,Lorenzo Bruzzone
発行日 2024-06-25 16:12:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク