One-Step Diffusion for Detail-Rich and Temporally Consistent Video Super-Resolution

要約

特に、現実的な詳細合成のために安定した拡散(SD)などの事前に訓練された生成モデルを活用する場合、現実世界のビデオ超解像度(Real-VSR)の時間的一貫性を維持しながら、豊富な空間の詳細を再現することは困難な問題です。
既存のSDベースのReal-VSRメソッドは、しばしば時間的一貫性の空間的詳細を損なうため、最適ではない視覚品質をもたらします。
キーは、低品質(LQ)入力ビデオから劣化と堅牢な時間的一貫性の低下を効果的に抽出する方法にあると主張し、抽出された一貫性の低下を維持しながらビデオの詳細を強化します。
これを達成するために、効果的なSDベースのワンステップ拡散モデルをトレーニングするために、デュアルロラ学習(dloral)パラダイムを提案し、現実的なフレームの詳細と時間的一貫性を同時に達成します。
具体的には、フレーム間で相補的な情報を集約するためのクロスフレーム検索(CFR)モジュールを導入し、劣化した入力から堅牢な時間表現を学習するために、一貫性lora(c-lora)をトレーニングします。
一貫性学習の後、CFRおよびC-LORAモジュールを修正し、DETALE-LORA(D-LORA)をトレーニングして、C-LORAによって定義された時間空間と整合して時間的一貫性を維持しながら、空間的な詳細を強化します。
2つのフェーズは、最適化のために繰り返し交互になり、一貫した詳細豊富な出力を共同で提供します。
推論中、2つのLORAブランチがSDモデルにマージされ、単一の拡散ステップで効率的で高品質のビデオ修復が可能になります。
実験は、Dloralが精度と速度の両方で強力なパフォーマンスを達成することを示しています。
コードとモデルはhttps://github.com/yjsunnn/dloralで入手できます。

要約(オリジナル)

It is a challenging problem to reproduce rich spatial details while maintaining temporal consistency in real-world video super-resolution (Real-VSR), especially when we leverage pre-trained generative models such as stable diffusion (SD) for realistic details synthesis. Existing SD-based Real-VSR methods often compromise spatial details for temporal coherence, resulting in suboptimal visual quality. We argue that the key lies in how to effectively extract the degradation-robust temporal consistency priors from the low-quality (LQ) input video and enhance the video details while maintaining the extracted consistency priors. To achieve this, we propose a Dual LoRA Learning (DLoRAL) paradigm to train an effective SD-based one-step diffusion model, achieving realistic frame details and temporal consistency simultaneously. Specifically, we introduce a Cross-Frame Retrieval (CFR) module to aggregate complementary information across frames, and train a Consistency-LoRA (C-LoRA) to learn robust temporal representations from degraded inputs. After consistency learning, we fix the CFR and C-LoRA modules and train a Detail-LoRA (D-LoRA) to enhance spatial details while aligning with the temporal space defined by C-LoRA to keep temporal coherence. The two phases alternate iteratively for optimization, collaboratively delivering consistent and detail-rich outputs. During inference, the two LoRA branches are merged into the SD model, allowing efficient and high-quality video restoration in a single diffusion step. Experiments show that DLoRAL achieves strong performance in both accuracy and speed. Code and models are available at https://github.com/yjsunnn/DLoRAL.

arxiv情報

著者 Yujing Sun,Lingchen Sun,Shuaizheng Liu,Rongyuan Wu,Zhengqiang Zhang,Lei Zhang
発行日 2025-06-18 16:06:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク