XYScanNet: An Interpretable State Space Model for Perceptual Image Deblurring

要約

最近の Mamba アーキテクチャと同様に、深層状態空間モデル (SSM) が、CNN や Transformer ネットワークに代わる有望な代替手段として浮上しています。
既存の Mamba ベースの復元方法は、スキャン前に画像パッチを 1D シーケンスに変換するフラット化アンドスキャン戦略を利用してビジュアル データを処理します。
ただし、このスキャン パラダイムはローカル ピクセルの依存関係を無視し、離れたピクセルを不正確に隣接して配置することで空間的な位置ずれを引き起こします。これにより、ローカルなノイズ認識が低下し、低レベルの視覚タスクにおける画像の鮮明さが低下します。
これらの問題を克服するために、スライス内とスライス間でスキャンを交互に行う新しいスライス アンド スキャン戦略を提案します。
さらに、画像のブレを除去するための新しい Vision State Space Module (VSSM) を設計し、現在の Mamba ベースのビジョン モジュールの非効率性の課題に取り組みます。
これに基づいて、画像のぼけ除去を強化するための軽量の機能融合モジュールと統合された SSM アーキテクチャである XYScanNet を開発しました。
XYScanNet は、競争力のある歪みメトリクスを維持し、知覚パフォーマンスを大幅に向上させます。
実験結果は、XYScanNet が最も近い競合他社と比較して KID を $17\%$ 向上させることを示しています。
私たちのコードは間もなくリリースされる予定です。

要約(オリジナル)

Deep state-space models (SSMs), like recent Mamba architectures, are emerging as a promising alternative to CNN and Transformer networks. Existing Mamba-based restoration methods process the visual data by leveraging a flatten-and-scan strategy that converts image patches into a 1D sequence before scanning. However, this scanning paradigm ignores local pixel dependencies and introduces spatial misalignment by positioning distant pixels incorrectly adjacent, which reduces local noise-awareness and degrades image sharpness in low-level vision tasks. To overcome these issues, we propose a novel slice-and-scan strategy that alternates scanning along intra- and inter-slices. We further design a new Vision State Space Module (VSSM) for image deblurring, and tackle the inefficiency challenges of the current Mamba-based vision module. Building upon this, we develop XYScanNet, an SSM architecture integrated with a lightweight feature fusion module for enhanced image deblurring. XYScanNet, maintains competitive distortion metrics and significantly improves perceptual performance. Experimental results show that XYScanNet enhances KID by $17\%$ compared to the nearest competitor. Our code will be released soon.

arxiv情報

著者 Hanzhou Liu,Chengkai Liu,Jiacong Xu,Peng Jiang,Mi Lu
発行日 2024-12-13 18:33:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク