要約
近年、画像復元は大幅に進歩しましたが、これは主に CNN やトランスフォーマーなどの最新のディープ ニューラル ネットワークの開発によるものです。
しかし、既存の修復バックボーンは、グローバルな受容領域と効率的な計算の間のジレンマに直面することが多く、実際の応用が妨げられています。
最近、選択的構造化状態空間モデル、特に改良版 Mamba は、線形複雑性を備えた長距離依存関係モデリングに大きな可能性を示し、上記のジレンマを解決する方法を提供します。
ただし、標準の Mamba は、ローカル ピクセルの忘却やチャネルの冗長性など、低レベルの視覚において依然として特定の課題に直面しています。
この作業では、MambaIR という名前のシンプルだが効果的なベースラインを導入します。これは、バニラの Mamba を改善するために、ローカルの強化と注目のチャネルの両方を導入します。
このようにして、MambaIR はローカル ピクセルの類似性を利用し、チャネルの冗長性を削減します。
広範な実験により、私たちの方法の優位性が実証されています。たとえば、MambaIR は、同様の計算コストを使用して、グローバルな受容野を使用して、画像 SR で SwinIR よりも最大 0.45dB 優れています。
コードは \url{https://github.com/csguoh/MambaIR} で入手できます。
要約(オリジナル)
Recent years have seen significant advancements in image restoration, largely attributed to the development of modern deep neural networks, such as CNNs and Transformers. However, existing restoration backbones often face the dilemma between global receptive fields and efficient computation, hindering their application in practice. Recently, the Selective Structured State Space Model, especially the improved version Mamba, has shown great potential for long-range dependency modeling with linear complexity, which offers a way to resolve the above dilemma. However, the standard Mamba still faces certain challenges in low-level vision such as local pixel forgetting and channel redundancy. In this work, we introduce a simple but effective baseline, named MambaIR, which introduces both local enhancement and channel attention to improve the vanilla Mamba. In this way, our MambaIR takes advantage of the local pixel similarity and reduces the channel redundancy. Extensive experiments demonstrate the superiority of our method, for example, MambaIR outperforms SwinIR by up to 0.45dB on image SR, using similar computational cost but with a global receptive field. Code is available at \url{https://github.com/csguoh/MambaIR}.
arxiv情報
著者 | Hang Guo,Jinmin Li,Tao Dai,Zhihao Ouyang,Xudong Ren,Shu-Tao Xia |
発行日 | 2024-03-25 13:27:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google