ESSAformer: Efficient Transformer for Hyperspectral Image Super-resolution

要約

シングル ハイパースペクトル画像超解像 (シングル HSI-SR) は、低解像度の観察から高解像度のハイパースペクトル画像を復元することを目的としています。
しかし、一般的な CNN ベースのアプローチでは、長距離の依存関係を構築し、スペクトル特徴間の相互作用情報を取得することに限界があることが示されています。
その結果、アップサンプリング後のスペクトル情報やアーティファクトが適切に利用されなくなります。
この問題に対処するために、我々は、反復リファイン構造を備えたシングル HSI-SR 用の ESSA アテンションが組み込まれた Transformer ネットワークである ESSAformer を提案します。
具体的には、最初に、堅牢でスペクトルに優しい類似性メトリクス、つまりスペクトルのスペクトル相関係数 (SCC) を導入して、元のアテンション マトリックスを置き換え、トレーニングを容易にするためにモデルに帰納的バイアスを組み込みます。
これに基づいて、理論的サポートを備えたカーネル化可能なアテンション技術をさらに利用して、新しい効率的な SCC カーネルベースのセルフ アテンション (ESSA) を形成し、アテンションの計算を線形の複雑さまで削減します。
ESSA は、アップサンプリング後に多くの計算を行わずに特徴の受容野を拡大し、モデルがさまざまなスケールからの空間スペクトル情報を効果的に利用できるようにし、より自然な高解像度画像を生成します。
大規模なデータセットでの事前トレーニングを必要とせずに、私たちの実験は視覚的な品質と定量的な結果の両方において ESSA の有効性を実証しました。

要約(オリジナル)

Single hyperspectral image super-resolution (single-HSI-SR) aims to restore a high-resolution hyperspectral image from a low-resolution observation. However, the prevailing CNN-based approaches have shown limitations in building long-range dependencies and capturing interaction information between spectral features. This results in inadequate utilization of spectral information and artifacts after upsampling. To address this issue, we propose ESSAformer, an ESSA attention-embedded Transformer network for single-HSI-SR with an iterative refining structure. Specifically, we first introduce a robust and spectral-friendly similarity metric, \ie, the spectral correlation coefficient of the spectrum (SCC), to replace the original attention matrix and incorporates inductive biases into the model to facilitate training. Built upon it, we further utilize the kernelizable attention technique with theoretical support to form a novel efficient SCC-kernel-based self-attention (ESSA) and reduce attention computation to linear complexity. ESSA enlarges the receptive field for features after upsampling without bringing much computation and allows the model to effectively utilize spatial-spectral information from different scales, resulting in the generation of more natural high-resolution images. Without the need for pretraining on large-scale datasets, our experiments demonstrate ESSA’s effectiveness in both visual quality and quantitative results.

arxiv情報

著者 Mingjin Zhang,Chi Zhang,Qiming Zhang,Jie Guo,Xinbo Gao,Jing Zhang
発行日 2023-07-26 07:45:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク