Bridging Sensor Gaps via Single-Direction Tuning for Hyperspectral Image Classification

要約

最近、一部の研究者が HSI 分類に取り組む際に ViT の使用を検討し始め、注目すべき結果を達成しました。
ただし、ViT モデルのトレーニングにはかなりの数のトレーニング サンプルが必要ですが、ハイパースペクトル データは、アノテーション コストが高いため、通常、トレーニング サンプルの数が比較的少数です。
この矛盾は効果的に対処されていません。
この論文では、この問題を解決することを目的として、ブリッジとして機能する単一方向チューニング (SDT) 戦略を提案します。これにより、既存のラベル付き HSI データセット (RGB データセットも含む) を活用して、サンプルが限られた新しい HSI データセットのパフォーマンスを向上させることができます。

提案された SDT はプロンプト チューニングの考え方を継承しており、新しいタスクに適応するために最小限の変更で事前トレーニングされたモデルを再利用することを目的としています。
ただし、プロンプト チューニングとは異なり、SDT は HSI の特性に合わせてカスタム設計されています。
提案された SDT は、並列アーキテクチャ、非同期のコールド/ホット勾配更新戦略、および一方向の相互作用を利用します。
これは、異種データセット、さらにはクロスモーダル データセットでのトレーニングから得られる強力な表現学習機能を完全に活用することを目的としています。
さらに、新しいトリプレット構造のトランスフォーマー (Tri-Former) も紹介します。このトランスフォーマーでは、スペクトル アテンション モジュールと空間アテンション モジュールが並行してマージされ、計算コストを削減するためのトークン混合コンポーネントを構築し、3D 畳み込みベースのチャネル ミキサー モジュールが統合されています。
安定性を高め、構造情報を保持します。
異なるセンサーでキャプチャされた 3 つの代表的な HSI データセットに対して行われた比較実験により、提案された Tri-Former がいくつかの最先端の方法と比較して優れたパフォーマンスを達成することが実証されました。
同種、異種、およびクロスモーダル調整実験により、提案された SDT の有効性が検証されました。

要約(オリジナル)

Recently, some researchers started exploring the use of ViTs in tackling HSI classification and achieved remarkable results. However, the training of ViT models requires a considerable number of training samples, while hyperspectral data, due to its high annotation costs, typically has a relatively small number of training samples. This contradiction has not been effectively addressed. In this paper, aiming to solve this problem, we propose the single-direction tuning (SDT) strategy, which serves as a bridge, allowing us to leverage existing labeled HSI datasets even RGB datasets to enhance the performance on new HSI datasets with limited samples. The proposed SDT inherits the idea of prompt tuning, aiming to reuse pre-trained models with minimal modifications for adaptation to new tasks. But unlike prompt tuning, SDT is custom-designed to accommodate the characteristics of HSIs. The proposed SDT utilizes a parallel architecture, an asynchronous cold-hot gradient update strategy, and unidirectional interaction. It aims to fully harness the potent representation learning capabilities derived from training on heterologous, even cross-modal datasets. In addition, we also introduce a novel Triplet-structured transformer (Tri-Former), where spectral attention and spatial attention modules are merged in parallel to construct the token mixing component for reducing computation cost and a 3D convolution-based channel mixer module is integrated to enhance stability and keep structure information. Comparison experiments conducted on three representative HSI datasets captured by different sensors demonstrate the proposed Tri-Former achieves better performance compared to several state-of-the-art methods. Homologous, heterologous and cross-modal tuning experiments verified the effectiveness of the proposed SDT.

arxiv情報

著者 Xizhe Xue,Haokui Zhang,Ying Li,Liuwei Wan,Zongwen Bai,Mike Zheng Shou
発行日 2023-09-22 13:39:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク