Enhancing Perceptual Quality in Video Super-Resolution through Temporally-Consistent Detail Synthesis using Diffusion Models

要約

この論文では、拡散モデル (DM) を使用してビデオ超解像度 (VSR) の問題に取り組み、StableVSR を紹介します。
私たちの方法は、現実的で時間的に一貫した詳細を合成することにより、アップスケールされたビデオの知覚品質を大幅に向上させます。
時間調整モジュール (TCM) を導入することで、単一画像の超解像度用に事前トレーニングされた DM を VSR 手法に変換します。
TCM は、隣接するフレームで合成された、空間的に位置合わせされた詳細なテクスチャ情報を提供する時間テクスチャ ガイダンスを使用します。
これにより、現在のフレームの生成プロセスが高品質で時間的に一貫した結果を得ることができます。
過去から未来へ、あるいはその逆への情報の使用を促進するために、フレームごとの双方向サンプリング戦略を導入します。
この戦略により、結果の知覚品質とフレーム間の時間的一貫性が向上します。
既存の最先端の VSR 手法と比較して、アップスケーリングされたビデオの知覚品質を向上させる StableVSR の有効性を実証します。
コードは https://github.com/claudiom4sir/StableVSR で入手できます。

要約(オリジナル)

In this paper, we address the problem of video super-resolution (VSR) using Diffusion Models (DM), and present StableVSR. Our method significantly enhances the perceptual quality of upscaled videos by synthesizing realistic and temporally-consistent details. We turn a pre-trained DM for single image super-resolution into a VSR method by introducing the Temporal Conditioning Module (TCM). TCM uses Temporal Texture Guidance, which provides spatially-aligned and detail-rich texture information synthesized in adjacent frames. This guides the generative process of the current frame toward high-quality and temporally-consistent results. We introduce a Frame-wise Bidirectional Sampling strategy to encourage the use of information from past to future and vice-versa. This strategy improves the perceptual quality of the results and the temporal consistency across frames. We demonstrate the effectiveness of StableVSR in enhancing the perceptual quality of upscaled videos compared to existing state-of-the-art methods for VSR. The code is available at https://github.com/claudiom4sir/StableVSR.

arxiv情報

著者 Claudio Rota,Marco Buzzelli,Joost van de Weijer
発行日 2023-11-27 15:14:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク