Swin2-MoSE: A New Single Image Super-Resolution Model for Remote Sensing

要約

現在の光学およびセンサー技術の限界とそれらの更新コストが高いため、衛星のスペクトルおよび空間分解能は必ずしも望ましい要件を満たしているとは限りません。
これらの理由から、リモート センシング単一画像超解像度 (RS-SISR) 技術が大きな関心を集めています。
本稿では、Swin2SR の拡張版である Swin2-MoSE モデルを提案します。
私たちのモデルには、すべての Transformer ブロック内のフィードフォワードを置き換えるために強化された専門家混合 (MoE) である MoE-SM が導入されています。
MoE-SM は、Smart-Merger と、個々のエキスパートの出力をマージするための新しいレイヤー、およびエキスパート間で作業を分割する新しい方法を使用して設計されており、一般的に使用されているトークンごとの戦略ではなく、例ごとの新しい戦略を定義します。
さらに、位置エンコーディングがどのように相互作用するかを分析し、チャネルごとのバイアスとヘッドごとのバイアスが積極的に連携できることを示します。
最後に、典型的な MSE 損失制限を回避するために、正規化相互相関 (NCC) 損失と構造類似性指数測定 (SSIM) 損失を組み合わせて使用​​することを提案します。
実験結果は、Swin2-MoSE が 2 倍、3 倍、4 倍の解像度アップスケーリング (Sen2Venus および OLI2MSI データセット) のタスクにおいて、SOTA よりも最大 0.377 ~ 0.958 dB (PSNR) 優れていることを示しています。
Swin2-MoSE をセマンティック セグメンテーション タスク (SeasoNet データセット) に適用して、その有効性を示します。
コードと事前トレーニング済みは https://github.com/IMPLabUniPr/swin2-mose/tree/official_code で入手できます。

要約(オリジナル)

Due to the limitations of current optical and sensor technologies and the high cost of updating them, the spectral and spatial resolution of satellites may not always meet desired requirements. For these reasons, Remote-Sensing Single-Image Super-Resolution (RS-SISR) techniques have gained significant interest. In this paper, we propose Swin2-MoSE model, an enhanced version of Swin2SR. Our model introduces MoE-SM, an enhanced Mixture-of-Experts (MoE) to replace the Feed-Forward inside all Transformer block. MoE-SM is designed with Smart-Merger, and new layer for merging the output of individual experts, and with a new way to split the work between experts, defining a new per-example strategy instead of the commonly used per-token one. Furthermore, we analyze how positional encodings interact with each other, demonstrating that per-channel bias and per-head bias can positively cooperate. Finally, we propose to use a combination of Normalized-Cross-Correlation (NCC) and Structural Similarity Index Measure (SSIM) losses, to avoid typical MSE loss limitations. Experimental results demonstrate that Swin2-MoSE outperforms SOTA by up to 0.377 ~ 0.958 dB (PSNR) on task of 2x, 3x and 4x resolution-upscaling (Sen2Venus and OLI2MSI datasets). We show the efficacy of Swin2-MoSE, applying it to a semantic segmentation task (SeasoNet dataset). Code and pretrained are available on https://github.com/IMPLabUniPr/swin2-mose/tree/official_code

arxiv情報

著者 Leonardo Rossi,Vittorio Bernuzzi,Tomaso Fontanini,Massimo Bertozzi,Andrea Prati
発行日 2024-04-29 17:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク