Multi-dimensional Visual Prompt Enhanced Image Restoration via Mamba-Transformer Aggregation

要約

画像復元に関する最近の取り組みは、単一モデル内でさまざまな劣化の種類やレベルに対応できる「オールインワン」モデルの開発に焦点を当てています。
しかし、主流の Transformer ベースのほとんどは、セルフ アテンション メカニズムは画像サイズに関して計算の複雑さを二次関数的に増加させ、長距離の依存関係を把握するのが不十分であるため、モデルの機能と計算負荷の間のジレンマに直面していました。
Mamba 関連のほとんどは、グローバル モデリングのために空間次元での特徴マップのみをスキャンしており、チャネル次元の情報を十分に活用できていません。
前述の問題に対処するために、この論文では、計算効率を犠牲にすることなく、Mamba と Transformer の相補的な利点を最大限に活用することを提案しました。
具体的には、空間モデリングに焦点を当てるために Mamba の選択的スキャン メカニズムが採用されており、線形の複雑さの下で長距離の空間依存関係をキャプチャできるようになります。
Transformer のセルフアテンション メカニズムは、チャネル モデリングに焦点を当てるために適用され、画像の空間次元に応じて二次関数的に増加する高い計算負荷を回避します。
さらに、効果的な画像復元のための有益なプロンプトを充実させるために、マルチスケールのエンコーダ/デコーダ層からプロンプトフローを学習する多次元プロンプト学習モジュールが提案されており、空間とチャネルの両方の観点からさまざまな劣化の根底にある特性を明らかにするのに役立ちます。
「オールインワン」モデルの機能を強化して、さまざまな復元タスクを解決します。
画像のノイズ除去、かすみ除去、輪郭除去などのいくつかの画像復元ベンチマーク タスクに関する広範な実験結果により、提案された方法が多くの一般的な主流の方法と比較して、新しい最先端のパフォーマンスを達成できることが実証されました。
関連するソース コードと事前トレーニングされたパラメーターは、github https://github.com/12138-chr/MTAIR で公開されます。

要約(オリジナル)

Recent efforts on image restoration have focused on developing ‘all-in-one’ models that can handle different degradation types and levels within single model. However, most of mainstream Transformer-based ones confronted with dilemma between model capabilities and computation burdens, since self-attention mechanism quadratically increase in computational complexity with respect to image size, and has inadequacies in capturing long-range dependencies. Most of Mamba-related ones solely scanned feature map in spatial dimension for global modeling, failing to fully utilize information in channel dimension. To address aforementioned problems, this paper has proposed to fully utilize complementary advantages from Mamba and Transformer without sacrificing computation efficiency. Specifically, the selective scanning mechanism of Mamba is employed to focus on spatial modeling, enabling capture long-range spatial dependencies under linear complexity. The self-attention mechanism of Transformer is applied to focus on channel modeling, avoiding high computation burdens that are in quadratic growth with image’s spatial dimensions. Moreover, to enrich informative prompts for effective image restoration, multi-dimensional prompt learning modules are proposed to learn prompt-flows from multi-scale encoder/decoder layers, benefiting for revealing underlying characteristic of various degradations from both spatial and channel perspectives, therefore, enhancing the capabilities of ‘all-in-one’ model to solve various restoration tasks. Extensive experiment results on several image restoration benchmark tasks such as image denoising, dehazing, and deraining, have demonstrated that the proposed method can achieve new state-of-the-art performance, compared with many popular mainstream methods. Related source codes and pre-trained parameters will be public on github https://github.com/12138-chr/MTAIR.

arxiv情報

著者 Aiwen Jiang,Hourong Chen,Zhiwen Chen,Jihua Ye,Mingwen Wang
発行日 2024-12-20 12:36:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク