要約
近年、トランスベースのモデルは、複雑なコンテキスト機能をキャプチャする固有の能力を活用することにより、画像修復の分野で大きな進歩を遂げています。
最近、MAMBAモデルは、長距離依存関係を処理する能力と、変圧器と比較した大幅な計算効率のために、コンピュータービジョンの分野でスプラッシュしました。
ただし、MAMBAは現在、コンテキスト学習能力でトランスフォーマーに遅れをとっています。
これら2つのモデルの制限を克服するために、Matirと呼ばれるMamba-Transformerハイブリッド画像修復モデルを提案します。
具体的には、Matirはトランス層のブロックとMamba層のブロックをクロスサイクリングして特徴を抽出し、それによって2つのアーキテクチャの利点を最大限に活用します。
MAMBAモジュールでは、4つのスキャンパスに沿って横断する状態空間(IRSS)モジュールを入力する画像を導入して、長いシーケンスデータの効率的な処理を実現します。
トランスモジュールでは、三角形のウィンドウベースのローカルな注意とチャネルベースのグローバルな注意を組み合わせて、より広い範囲の画像ピクセルで注意メカニズムを効果的に活性化します。
広範な実験結果とアブレーション研究は、私たちのアプローチの有効性を示しています。
要約(オリジナル)
In recent years, Transformers-based models have made significant progress in the field of image restoration by leveraging their inherent ability to capture complex contextual features. Recently, Mamba models have made a splash in the field of computer vision due to their ability to handle long-range dependencies and their significant computational efficiency compared to Transformers. However, Mamba currently lags behind Transformers in contextual learning capabilities. To overcome the limitations of these two models, we propose a Mamba-Transformer hybrid image restoration model called MatIR. Specifically, MatIR cross-cycles the blocks of the Transformer layer and the Mamba layer to extract features, thereby taking full advantage of the advantages of the two architectures. In the Mamba module, we introduce the Image Inpainting State Space (IRSS) module, which traverses along four scan paths to achieve efficient processing of long sequence data. In the Transformer module, we combine triangular window-based local attention with channel-based global attention to effectively activate the attention mechanism over a wider range of image pixels. Extensive experimental results and ablation studies demonstrate the effectiveness of our approach.
arxiv情報
著者 | Juan Wen,Weiyan Hou,Luc Van Gool,Radu Timofte |
発行日 | 2025-01-30 14:55:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google