Hyperspectral Image Super Resolution with Real Unaligned RGB Guidance


融合ベースのハイパースペクトル画像 (HSI) 超解像は、対になった高解像度 (HR) RGB 参照画像からの高周波空間情報を統合する機能のために、ますます普及しています。
ただし、既存の方法のほとんどは、低解像度 (LR) HSI と RGB 画像の間の正確な位置合わせに大きく依存しているか、厳密な幾何学的変換によって生成されたシミュレートされた位置合わせされていない RGB 画像しか処理できないため、実際のシーンでの効果が弱まります。
この論文では、剛体と非剛体の両方のミスアライメントを持つ実際の RGB 参照画像を使用して、融合ベースの HSI 超解像を調べます。
整列されていない参照画像に対する既存の方法の制限に適切に対処するために、異種特徴抽出、多段階特徴整列、および注意深い特徴融合を備えた HSI 融合ネットワークを提案します。
具体的には、ネットワークはまず入力 HSI および RGB 画像を、それぞれ HSI エンコーダーと RGB エンコーダーを使用して 2 セットのマルチスケール機能に変換します。
次に、RGB 参照画像の特徴は、多段階アライメント モジュールによって処理され、RGB 参照の特徴が LR HSI と明示的に整列されます。
最後に、RGB 参照の整列された特徴は、再構築された HR HSI を生成するためにフュージョン デコーダーに送信される前に、識別可能な領域にさらに焦点を当てるために、アダプティブ アテンション モジュールによってさらに調整されます。
さらに、実際のシーンの提案されたモデルの評価をサポートするために、ペアになった HSI と位置合わせされていない RGB 参照で構成される現実世界の HSI 融合データセットを収集します。


Fusion-based hyperspectral image (HSI) super-resolution has become increasingly prevalent for its capability to integrate high-frequency spatial information from the paired high-resolution (HR) RGB reference image. However, most of the existing methods either heavily rely on the accurate alignment between low-resolution (LR) HSIs and RGB images, or can only deal with simulated unaligned RGB images generated by rigid geometric transformations, which weakens their effectiveness for real scenes. In this paper, we explore the fusion-based HSI super-resolution with real RGB reference images that have both rigid and non-rigid misalignments. To properly address the limitations of existing methods for unaligned reference images, we propose an HSI fusion network with heterogenous feature extractions, multi-stage feature alignments, and attentive feature fusion. Specifically, our network first transforms the input HSI and RGB images into two sets of multi-scale features with an HSI encoder and an RGB encoder, respectively. The features of RGB reference images are then processed by a multi-stage alignment module to explicitly align the features of RGB reference with the LR HSI. Finally, the aligned features of RGB reference are further adjusted by an adaptive attention module to focus more on discriminative regions before sending them to the fusion decoder to generate the reconstructed HR HSI. Additionally, we collect a real-world HSI fusion dataset, consisting of paired HSI and unaligned RGB reference, to support the evaluation of the proposed model for real scenes. Extensive experiments are conducted on both simulated and our real-world datasets, and it shows that our method obtains a clear improvement over existing single-image and fusion-based super-resolution methods on quantitative assessment as well as visual comparison.


著者 Zeqiang Lai,Ying Fu,Jun Zhang
発行日 2023-02-13 11:56:45+00:00
