要約
拡散モデルは、画像の生成と復元において優れた機能を実証してきましたが、ビデオ超解像度への適用は、高い忠実度と時間的一貫性の両方を維持するという大きな課題に直面しています。
私たちは、主要なイノベーションを通じてこれらの課題に効果的に対処する、現実世界のビデオ超解像度のための拡散ベースのフレームワークである DiffVSR を紹介します。
シーケンス内コヒーレンスのために、私たちは、きめの細かい動きの詳細を捕捉する、マルチスケールの時間的注意モジュールと時間的に強化された VAE デコーダを開発します。
シーケンス間の安定性を確保するために、織り交ぜられた潜在遷移アプローチを使用したノイズ再スケジュール メカニズムを導入します。これにより、追加のトレーニング オーバーヘッドなしで時間的一貫性が強化されます。
私たちは、単純な劣化から複雑な劣化に移行する漸進的な学習戦略を提案し、高品質のビデオ データが限られているにもかかわらず堅牢な最適化を可能にします。
広範な実験により、DiffVSR が視覚品質と時間的一貫性の両方で優れた結果をもたらし、現実世界のビデオ超解像度における新しいパフォーマンス標準を確立することが実証されました。
要約(オリジナル)
Diffusion models have demonstrated exceptional capabilities in image generation and restoration, yet their application to video super-resolution faces significant challenges in maintaining both high fidelity and temporal consistency. We present DiffVSR, a diffusion-based framework for real-world video super-resolution that effectively addresses these challenges through key innovations. For intra-sequence coherence, we develop a multi-scale temporal attention module and temporal-enhanced VAE decoder that capture fine-grained motion details. To ensure inter-sequence stability, we introduce a noise rescheduling mechanism with an interweaved latent transition approach, which enhances temporal consistency without additional training overhead. We propose a progressive learning strategy that transitions from simple to complex degradations, enabling robust optimization despite limited high-quality video data. Extensive experiments demonstrate that DiffVSR delivers superior results in both visual quality and temporal consistency, setting a new performance standard in real-world video super-resolution.
arxiv情報
著者 | Xiaohui Li,Yihao Liu,Shuo Cao,Ziyan Chen,Shaobin Zhuang,Xiangyu Chen,Yinan He,Yi Wang,Yu Qiao |
発行日 | 2025-01-20 04:00:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google