MambaVSR: Content-Aware Scanning State Space Model for Video Super-Resolution

要約

ビデオスーパー解像度(VSR)は、計算効率を維持しながら、不整合フレーム全体で非ローカルな依存関係を効果的にモデル化する上で重要な課題に直面しています。
既存のVSRメソッドは通常、光学フロー戦略またはトランスアーキテクチャに依存しており、これは大きな動きの変位と長いビデオシーケンスに苦労しています。
これに対処するために、革新的なコンテンツ認識スキャンメカニズムを組み込んだVSRの最初の状態空間モデルフレームワークであるMambavsrを提案します。
従来のビジョンMAMBAメソッドの剛性1Dシーケンシャル処理とは異なり、Mambavsrは、共有コンパス構造(SCC)とコンテンツを意識した連続化(CAS)を通じて動的空間的相互作用を可能にします。
具体的には、SCCモジュールは、効率的なまばらな注意を介してフレーム内セマンティック接続グラフを構築し、スペクトルクラスタリングを介して適応的な空間スキャンシーケンスを生成します。
SCCに基づいて、CASモジュールは、学習した空間的順序に沿って時間的特徴をインターリーブすることにより、複数のフレームにわたって非ローカルな類似のコンテンツを効果的に整列させ、集約します。
グローバルな依存関係をローカルの詳細で橋渡しするために、グローバルローカルステートスペースブロック(GLSSB)は、ウィンドウの自己関節操作をSSMベースの機能伝播と相乗的に統合し、グローバル依存性ガイダンスの下で高周波の詳細回復を可能にします。
広範な実験は、Mambavsrの優位性を検証し、55%少ないパラメーターでRedsデータセットでトランスベースの方法を0.58 dB PSNRよりも優れています。

要約(オリジナル)

Video super-resolution (VSR) faces critical challenges in effectively modeling non-local dependencies across misaligned frames while preserving computational efficiency. Existing VSR methods typically rely on optical flow strategies or transformer architectures, which struggle with large motion displacements and long video sequences. To address this, we propose MambaVSR, the first state-space model framework for VSR that incorporates an innovative content-aware scanning mechanism. Unlike rigid 1D sequential processing in conventional vision Mamba methods, our MambaVSR enables dynamic spatiotemporal interactions through the Shared Compass Construction (SCC) and the Content-Aware Sequentialization (CAS). Specifically, the SCC module constructs intra-frame semantic connectivity graphs via efficient sparse attention and generates adaptive spatial scanning sequences through spectral clustering. Building upon SCC, the CAS module effectively aligns and aggregates non-local similar content across multiple frames by interleaving temporal features along the learned spatial order. To bridge global dependencies with local details, the Global-Local State Space Block (GLSSB) synergistically integrates window self-attention operations with SSM-based feature propagation, enabling high-frequency detail recovery under global dependency guidance. Extensive experiments validate MambaVSR’s superiority, outperforming the Transformer-based method by 0.58 dB PSNR on the REDS dataset with 55% fewer parameters.

arxiv情報

著者 Linfeng He,Meiqin Liu,Qi Tang,Chao Yao,Yao Zhao
発行日 2025-06-13 13:22:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク