Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World Video Super-Resolution

要約

テキストベースの拡散モデルは、生成と編集において目覚ましい成功を収めており、生成的な事前生成により視覚コンテンツを強化する大きな可能性を示しています。
ただし、これらのモデルをビデオ超解像度に適用することは、出力の忠実性と時間的一貫性に対する高い要求があり、拡散モデルに固有のランダム性によって複雑になるため、依然として困難です。
私たちの研究では、ビデオのアップスケーリングのためのテキストガイドによる潜在的な拡散フレームワークである Upscale-A-Video を紹介します。
このフレームワークは、2 つの主要なメカニズムを通じて時間的一貫性を確保します。ローカルでは、時間層を U-Net と VAE-Decoder に統合し、短いシーケンス内の一貫性を維持します。
トレーニングを行わずに、フローガイドによる再帰的潜在伝播モジュールがグローバルに導入され、シーケンス全体に潜在を伝播および融合することでビデオ全体の安定性が向上します。
拡散パラダイムのおかげで、私たちのモデルは、テクスチャの作成をガイドするテキスト プロンプトと、復元と生成のバランスをとるための調整可能なノイズ レベルを許可することにより、より高い柔軟性も提供し、忠実度と品質の間のトレードオフを可能にします。
広範な実験により、Upscale-A-Video は合成ベンチマークと現実世界のベンチマークの両方、および AI 生成ビデオにおいて既存の手法を上回り、印象的な視覚的リアリズムと時間的一貫性を実証していることが示されています。

要約(オリジナル)

Text-based diffusion models have exhibited remarkable success in generation and editing, showing great promise for enhancing visual content with their generative prior. However, applying these models to video super-resolution remains challenging due to the high demands for output fidelity and temporal consistency, which is complicated by the inherent randomness in diffusion models. Our study introduces Upscale-A-Video, a text-guided latent diffusion framework for video upscaling. This framework ensures temporal coherence through two key mechanisms: locally, it integrates temporal layers into U-Net and VAE-Decoder, maintaining consistency within short sequences; globally, without training, a flow-guided recurrent latent propagation module is introduced to enhance overall video stability by propagating and fusing latent across the entire sequences. Thanks to the diffusion paradigm, our model also offers greater flexibility by allowing text prompts to guide texture creation and adjustable noise levels to balance restoration and generation, enabling a trade-off between fidelity and quality. Extensive experiments show that Upscale-A-Video surpasses existing methods in both synthetic and real-world benchmarks, as well as in AI-generated videos, showcasing impressive visual realism and temporal consistency.

arxiv情報

著者 Shangchen Zhou,Peiqing Yang,Jianyi Wang,Yihang Luo,Chen Change Loy
発行日 2023-12-11 18:54:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク