Rethinking Video Super-Resolution: Towards Diffusion-Based Methods without Motion Alignment

要約

この作業では、潜在的な空間で動作する無条件のビデオ拡散トランスと組み合わせて、拡散後のサンプリングフレームワークに基づいてメソッドを導入することにより、ビデオスーパー解像度へのアプローチを再考します。
拡散変圧器であるビデオ生成モデルは、時空モデルとして機能します。
現実世界の物理学を学ぶ強力なモデルは、事前知識としてさまざまな種類のモーションパターンを簡単に処理できるため、ピクセルアライメントの光学フローまたはモーションパラメーターの明示的な推定の必要性を排除できると主張します。
さらに、提案されたビデオ拡散トランスモデルの単一のインスタンスは、再トレーニングなしで異なるサンプリング条件に適応できます。
合成および実世界のデータセットの経験的結果は、拡散ベースのアライメントフリーのビデオスーパー解像度の実現可能性を示しています。

要約(オリジナル)

In this work, we rethink the approach to video super-resolution by introducing a method based on the Diffusion Posterior Sampling framework, combined with an unconditional video diffusion transformer operating in latent space. The video generation model, a diffusion transformer, functions as a space-time model. We argue that a powerful model, which learns the physics of the real world, can easily handle various kinds of motion patterns as prior knowledge, thus eliminating the need for explicit estimation of optical flows or motion parameters for pixel alignment. Furthermore, a single instance of the proposed video diffusion transformer model can adapt to different sampling conditions without re-training. Empirical results on synthetic and real-world datasets illustrate the feasibility of diffusion-based, alignment-free video super-resolution.

arxiv情報

著者 Zhihao Zhan,Wang Pang,Xiang Zhu,Yechao Bai
発行日 2025-05-08 15:38:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク