Multi-Scale Representation Learning for Image Restoration with State-Space Model

要約

画像復元では、劣化した画像から高品質で詳細な画像を再構築することが試みられます。これは、写真やさまざまなコンピューター ビジョン システムにおいて極めて重要なプロセスです。
実際のシナリオでは、さまざまな種類の劣化により、さまざまなスケールで画像の詳細が失われ、画像のコントラストが低下する可能性があります。
既存の方法は主に CNN と Transformer に依存してマルチスケール表現をキャプチャします。
ただし、これらの方法は、Transformer の高い計算複雑性と CNN の制約された受容野によって制限されることが多く、画像復元において優れたパフォーマンスと効率を達成することが妨げられています。
これらの課題に対処するために、私たちは、提案するグローバルおよびリージョナル SSM モジュールを通じてマルチスケール表現学習の能力を強化する、効率的な画像復元のための新しいマルチスケール状態空間モデルベース (MS-Mamba) を提案します。
さらに、適応勾配ブロック (AGB) と残留フーリエ ブロック (RFB) が提案されており、さまざまな方向の勾配を捕捉し、周波数領域での詳細の学習を容易にすることで、ネットワークの詳細抽出機能を向上させます。
画像ディレイニング、かすみ除去、ノイズ除去、低照度強調という 4 つの古典的な画像復元タスクにわたる 9 つの公開ベンチマークに関する広範な実験により、私たちの提案した方法が低い計算複雑性を維持しながら新しい最先端のパフォーマンスを達成することが実証されました。
ソースコードは公開される予定です。

要約(オリジナル)

Image restoration endeavors to reconstruct a high-quality, detail-rich image from a degraded counterpart, which is a pivotal process in photography and various computer vision systems. In real-world scenarios, different types of degradation can cause the loss of image details at various scales and degrade image contrast. Existing methods predominantly rely on CNN and Transformer to capture multi-scale representations. However, these methods are often limited by the high computational complexity of Transformers and the constrained receptive field of CNN, which hinder them from achieving superior performance and efficiency in image restoration. To address these challenges, we propose a novel Multi-Scale State-Space Model-based (MS-Mamba) for efficient image restoration that enhances the capacity for multi-scale representation learning through our proposed global and regional SSM modules. Additionally, an Adaptive Gradient Block (AGB) and a Residual Fourier Block (RFB) are proposed to improve the network’s detail extraction capabilities by capturing gradients in various directions and facilitating learning details in the frequency domain. Extensive experiments on nine public benchmarks across four classic image restoration tasks, image deraining, dehazing, denoising, and low-light enhancement, demonstrate that our proposed method achieves new state-of-the-art performance while maintaining low computational complexity. The source code will be publicly available.

arxiv情報

著者 Yuhong He,Long Peng,Qiaosi Yi,Chen Wu,Lu Wang
発行日 2024-08-19 16:42:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク