MaxSR: Image Super-Resolution Using Improved MaxViT

要約

トランスフォーマー モデルは自然言語処理タスクや高レベルのビジョン タスクに効果的であることが実証されていますが、単一画像の超解像度に強力なトランスフォーマー モデルを使用する試みはわずか数件しか行われていません。
トランス モデルには強力な表現能力があり、トランス モデルに組み込まれたセルフ アテンション メカニズムは、入力低解像度画像の事前の自己相似性を利用して単一画像の超解像度のパフォーマンスを向上させるのに役立つため、単一画像の超解像度を提示します。
MaxSR と名付けられた、MaxViT の最新のハイブリッド ビジョン トランスをベースにしたモデル。
MaxSR は、浅い特徴抽出ブロック、深い階層特徴を抽出し、低レベルの特徴からグローバルな自己相似性を効率的にモデル化するための複数のカスケード適応 MaxViT ブロック、階層特徴融合ブロック、そして最後に再構築ブロックの 4 つの部分で構成されます。
MaxSR の主要コンポーネント、つまり適応 MaxViT ブロックは、MBConv とスクイーズアンド励起、ブロック アテンション、およびグリッド アテンションを組み合わせた MaxViT ブロックに基づいています。
入力低解像度画像の自己相似性のより良いグローバルモデリングを実現するために、MaxViT ブロックのブロック アテンションとグリッド アテンションを、すべてのグリッドと各グリッドにわたる各ウィンドウ内でセルフ アテンションを行う適応ブロック アテンションと適応グリッド アテンションに改善しました。
すべてのウィンドウにわたってそれぞれ最も効率的な方法で実行されます。
古典的な単一画像超解像度 (MaxSR) と軽量単一画像超解像度 (MaxSR-light) の提案されたモデルをインスタンス化します。
実験により、当社の MaxSR および MaxSR-light が新しい最先端のパフォーマンスを効率的に確立できることがわかりました。

要約(オリジナル)

While transformer models have been demonstrated to be effective for natural language processing tasks and high-level vision tasks, only a few attempts have been made to use powerful transformer models for single image super-resolution. Because transformer models have powerful representation capacity and the in-built self-attention mechanisms in transformer models help to leverage self-similarity prior in input low-resolution image to improve performance for single image super-resolution, we present a single image super-resolution model based on recent hybrid vision transformer of MaxViT, named as MaxSR. MaxSR consists of four parts, a shallow feature extraction block, multiple cascaded adaptive MaxViT blocks to extract deep hierarchical features and model global self-similarity from low-level features efficiently, a hierarchical feature fusion block, and finally a reconstruction block. The key component of MaxSR, i.e., adaptive MaxViT block, is based on MaxViT block which mixes MBConv with squeeze-and-excitation, block attention and grid attention. In order to achieve better global modelling of self-similarity in input low-resolution image, we improve block attention and grid attention in MaxViT block to adaptive block attention and adaptive grid attention which do self-attention inside each window across all grids and each grid across all windows respectively in the most efficient way. We instantiate proposed model for classical single image super-resolution (MaxSR) and lightweight single image super-resolution (MaxSR-light). Experiments show that our MaxSR and MaxSR-light establish new state-of-the-art performance efficiently.

arxiv情報

著者 Bincheng Yang,Gangshan Wu
発行日 2023-07-14 09:26:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク