Recursive Generalization Transformer for Image Super-Resolution

要約

トランス アーキテクチャは、画像の超解像度 (SR) において顕著なパフォーマンスを発揮しました。
Transformer のセルフ アテンション (SA) は二次計算の複雑さがあるため、既存の方法ではオーバーヘッドを削減するためにローカル領域で SA を採用する傾向があります。
ただし、ローカル設計では、正確な画像再構成にとって重要なグローバル コンテキストの利用が制限されます。
この研究では、グローバルな空間情報をキャプチャでき、高解像度画像に適した画像 SR 用の再帰一般化変換器 (RGT) を提案します。
具体的には、再帰的汎化自己注意(RG-SA)を提案します。
入力特徴を再帰的に代表的な特徴マップに集約し、クロスアテンションを利用してグローバル情報を抽出します。
一方、アテンション マトリックスのチャネル ディメンション (クエリ、キー、値) は、チャネル ドメインの冗長性を軽減するためにさらにスケーリングされます。
さらに、RG-SA とローカル セルフ アテンションを組み合わせてグローバル コンテキストの活用を強化し、モジュール統合のためのハイブリッド適応統合 (HAI) を提案します。
HAI により、さまざまなレベル (ローカルまたはグローバル) の機能間の直接的かつ効果的な融合が可能になります。
広範な実験により、当社の RGT は定量的および定性的に最近の最先端の方法より優れていることが実証されています。
コードは https://github.com/zhengchen1999/RGT で公開されています。

要約(オリジナル)

Transformer architectures have exhibited remarkable performance in image super-resolution (SR). Since the quadratic computational complexity of the self-attention (SA) in Transformer, existing methods tend to adopt SA in a local region to reduce overheads. However, the local design restricts the global context exploitation, which is crucial for accurate image reconstruction. In this work, we propose the Recursive Generalization Transformer (RGT) for image SR, which can capture global spatial information and is suitable for high-resolution images. Specifically, we propose the recursive-generalization self-attention (RG-SA). It recursively aggregates input features into representative feature maps, and then utilizes cross-attention to extract global information. Meanwhile, the channel dimensions of attention matrices (query, key, and value) are further scaled to mitigate the redundancy in the channel domain. Furthermore, we combine the RG-SA with local self-attention to enhance the exploitation of the global context, and propose the hybrid adaptive integration (HAI) for module integration. The HAI allows the direct and effective fusion between features at different levels (local or global). Extensive experiments demonstrate that our RGT outperforms recent state-of-the-art methods quantitatively and qualitatively. Code is released at https://github.com/zhengchen1999/RGT.

arxiv情報

著者 Zheng Chen,Yulun Zhang,Jinjin Gu,Linghe Kong,Xiaokang Yang
発行日 2023-09-29 13:45:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク