UltraVSR: Achieving Ultra-Realistic Video Super-Resolution with Efficient One-Step Diffusion Space

要約

拡散モデルは、現実的な画像の詳細を生成する大きな可能性を示しています。
ただし、これらのモデルをビデオスーパー解像度(VSR)に適応させることは、固有の確率性と時間モデリングの欠如のために依然として困難です。
この論文では、効率的なワンステップ拡散空間を通じて、超現実的で一時的なVSRを可能にする新しいフレームワークであるUltravSRを提案します。
UltravsRの中心的なコンポーネントは、低解像度の入力からの分解因子を推定し、反復的な除去プロセスを低解像度から高解像度のビデオから高解像度への1段階の再構築に変換する劣化を意識した修復スケジュール(DRS)です。
この設計は、拡散ノイズからランダム性を排除し、推論を大幅に高速化します。
時間的な一貫性を確保するために、RTS融解ユニットとRTSアテンションユニットで構成される軽量で効果的な再発時間シフト(RTS)モジュールを提案します。
時間的な次元に沿って特徴コンポーネントを部分的にシフトすることにより、これら2つのユニットは、明示的な時間層に依存することなく、隣接するフレーム全体で効果的な機能の伝播、融合、およびアライメントを共同で協力します。
RTSモジュールは、前提条件のテキストから画像間拡散モデルに統合され、時空間関節蒸留(SJD)によってさらに強化され、現実的な詳細を維持しながら時間的一貫性が向上します。
さらに、限られたメモリ制約の下で長距離の時間的依存関係をキャプチャするための時間的に非同期推論(TAI)戦略を導入します。
広範な実験では、UltravSRが単一のサンプリングステップで定性的および定量的に最先端のパフォーマンスを達成することが示されています。

要約(オリジナル)

Diffusion models have shown great potential in generating realistic image detail. However, adapting these models to video super-resolution (VSR) remains challenging due to their inherent stochasticity and lack of temporal modeling. In this paper, we propose UltraVSR, a novel framework that enables ultra-realistic and temporal-coherent VSR through an efficient one-step diffusion space. A central component of UltraVSR is the Degradation-aware Restoration Schedule (DRS), which estimates a degradation factor from the low-resolution input and transforms iterative denoising process into a single-step reconstruction from from low-resolution to high-resolution videos. This design eliminates randomness from diffusion noise and significantly speeds up inference. To ensure temporal consistency, we propose a lightweight yet effective Recurrent Temporal Shift (RTS) module, composed of an RTS-convolution unit and an RTS-attention unit. By partially shifting feature components along the temporal dimension, these two units collaboratively facilitate effective feature propagation, fusion, and alignment across neighboring frames, without relying on explicit temporal layers. The RTS module is integrated into a pretrained text-to-image diffusion model and is further enhanced through Spatio-temporal Joint Distillation (SJD), which improves temporal coherence while preserving realistic details. Additionally, we introduce a Temporally Asynchronous Inference (TAI) strategy to capture long-range temporal dependencies under limited memory constraints. Extensive experiments show that UltraVSR achieves state-of-the-art performance, both qualitatively and quantitatively, in a single sampling step.

arxiv情報

著者 Yong Liu,Jinshan Pan,Yinchuan Li,Qingji Dong,Chao Zhu,Yu Guo,Fei Wang
発行日 2025-05-26 13:19:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク