DRCT: Saving Image Super-resolution away from Information Bottleneck

要約

近年、低レベルの視覚タスクに対する Vision Transformer ベースのアプリケーションが広く成功を収めています。
CNN ベースのモデルとは異なり、Transformer は長距離依存関係の捕捉に優れており、非局所領域からの情報を利用して画像を再構成できます。
超解像の分野では、Swin トランスフォーマー ベースのアプローチが、グローバルな空間情報をキャプチャする能力と、異なるウィンドウ間での情報交換を容易にするシフト ウィンドウ アテンション メカニズムにより主流になっています。
多くの研究者は、受容野の拡大や複雑なネットワークの設計によって画質とネットワーク効率を向上させ、賞賛に値する結果をもたらしています。
ただし、深さが増すと順伝播プロセス中に空間情報が減少する傾向があり、空間情報の損失につながり、その結果モデルの可能性が制限されることが観察されました。
これに対処するために、層間の高密度残差接続による空間情報の損失を軽減し、それによってモデルの可能性を解き放ち、パフォーマンスを向上させることを目的とした、高密度残差接続トランスフォーマー (DRCT) を提案します。
実験結果は、私たちのアプローチが単純であるだけでなく、最先端の方法を超えて顕著な効率を達成し、NTIRE2024 で賞賛に値するパフォーマンスを達成したことを示しています。

要約(オリジナル)

In recent years, Vision Transformer-based applications to low-level vision tasks have achieved widespread success. Unlike CNN-based models, Transformers are more adept at capturing long-range dependencies, enabling the reconstruction of images utilizing information from non-local areas. In the domain of super-resolution, Swin-transformer-based approaches have become mainstream due to their capacity to capture global spatial information and their shifting-window attention mechanism that facilitates the interchange of information between different windows. Many researchers have enhanced image quality and network efficiency by expanding the receptive field or designing complex networks, yielding commendable results. However, we observed that spatial information tends to diminish during the forward propagation process due to increased depth, leading to a loss of spatial information and, consequently, limiting the model’s potential. To address this, we propose the Dense-residual-connected Transformer (DRCT), aimed at mitigating the loss of spatial information through dense-residual connections between layers, thereby unleashing the model’s potential and enhancing performance. Experiment results indicate that our approach is not only straightforward but also achieves remarkable efficiency, surpassing state-of-the-art methods and performing commendably at NTIRE2024.

arxiv情報

著者 Chih-Chung Hsu,Chia-Ming Lee,Yi-Shiuan Chou
発行日 2024-04-08 15:15:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク