Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution

要約

データ駆動型の画像スーパー解像度(SR)の主要な取り組みは、主にモデルの受容フィールドを拡大してコンテキスト情報をより適切にキャプチャすることに焦点を当てています。
ただし、これらの方法は通常、より深いネットワークを積み重ねたり、変圧器ベースの注意メカニズムを活用したりすることで実装され、その結果、モデルの複雑さが向上します。
対照的に、展開するパラダイムに基づくモデル駆動型の方法は、洗練されたモジュール設計を通じてモデルのコンパクトさを効果的に維持しながら、パフォーマンスを改善しながら有望であることを示しています。
これらの洞察に基づいて、効率的な画像SRのための構造的類似性にインスパイアされた展開(SSIU)メソッドを提案します。
この方法は、データ駆動型アプローチとモデル駆動型アプローチの両方の強度を組み合わせることを目的とした、構造的類似性によって制約されるSR最適化関数を展開することで設計されています。
私たちのモデルは、展開するパラダイムに従って徐々に動作します。
各反復は、複数の混合スケールゲーティングモジュール(MSGM)と効率的なスパース注意モジュール(ESAM)で構成されています。
前者は、構造的類似性の制約を含む機能に対する包括的な制約を実装していますが、後者はまばらな活性化を達成することを目的としています。
さらに、さまざまなステップの機能を組み合わせることにより、マルチレベルの機能情報を完全に利用する専門家ベースの機能セレクター(MOE-FS)を設計します。
広範な実験は、展開されたネットワークの有効性と効率を検証します。
私たちのモデルは、現在の最先端モデルよりも優れており、パラメーターカウントが低く、メモリ消費量の減少を誇っています。
私たちのコードは、https://github.com/eezkni/ssiuで入手できます

要約(オリジナル)

Major efforts in data-driven image super-resolution (SR) primarily focus on expanding the receptive field of the model to better capture contextual information. However, these methods are typically implemented by stacking deeper networks or leveraging transformer-based attention mechanisms, which consequently increases model complexity. In contrast, model-driven methods based on the unfolding paradigm show promise in improving performance while effectively maintaining model compactness through sophisticated module design. Based on these insights, we propose a Structural Similarity-Inspired Unfolding (SSIU) method for efficient image SR. This method is designed through unfolding an SR optimization function constrained by structural similarity, aiming to combine the strengths of both data-driven and model-driven approaches. Our model operates progressively following the unfolding paradigm. Each iteration consists of multiple Mixed-Scale Gating Modules (MSGM) and an Efficient Sparse Attention Module (ESAM). The former implements comprehensive constraints on features, including a structural similarity constraint, while the latter aims to achieve sparse activation. In addition, we design a Mixture-of-Experts-based Feature Selector (MoE-FS) that fully utilizes multi-level feature information by combining features from different steps. Extensive experiments validate the efficacy and efficiency of our unfolding-inspired network. Our model outperforms current state-of-the-art models, boasting lower parameter counts and reduced memory consumption. Our code will be available at: https://github.com/eezkni/SSIU

arxiv情報

著者 Zhangkai Ni,Yang Zhang,Wenhan Yang,Hanli Wang,Shiqi Wang,Sam Kwong
発行日 2025-06-13 14:29:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク