SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration

要約

映像の復元は、自然界における未知の劣化から時間的に一貫したディテールを復元しながら忠実度を維持するという、自明ではない課題を提起する。拡散ベースの復元における最近の進歩にもかかわらず、これらの方法は、生成能力とサンプリング効率における制限にしばしば直面する。この研究では、任意の長さと解像度を持つ実世界のビデオ復元を扱うように設計された拡散変換器であるSeedVRを紹介する。SeedVRの核となる設計は、長いビデオシーケンスに対する効果的な復元を容易にするシフトウィンドウの注意にある。SeedVRはさらに、従来のウィンドウ・アテンションの解像度の制約を克服し、空間と時間の両次元の境界付近で可変サイズのウィンドウをサポートします。因果的ビデオオートエンコーダー、画像とビデオの混合トレーニング、プログレッシブトレーニングを含む現代的な手法を装備したSeedVRは、AIが生成したビデオだけでなく、合成ベンチマークと実世界ベンチマークの両方で非常に競争力のあるパフォーマンスを達成します。広範な実験により、SeedVRが既存の一般的なビデオ復元手法よりも優れていることが実証されています。

要約(オリジナル)

Video restoration poses non-trivial challenges in maintaining fidelity while recovering temporally consistent details from unknown degradations in the wild. Despite recent advances in diffusion-based restoration, these methods often face limitations in generation capability and sampling efficiency. In this work, we present SeedVR, a diffusion transformer designed to handle real-world video restoration with arbitrary length and resolution. The core design of SeedVR lies in the shifted window attention that facilitates effective restoration on long video sequences. SeedVR further supports variable-sized windows near the boundary of both spatial and temporal dimensions, overcoming the resolution constraints of traditional window attention. Equipped with contemporary practices, including causal video autoencoder, mixed image and video training, and progressive training, SeedVR achieves highly-competitive performance on both synthetic and real-world benchmarks, as well as AI-generated videos. Extensive experiments demonstrate SeedVR’s superiority over existing methods for generic video restoration.

arxiv情報

著者 Jianyi Wang,Zhijie Lin,Meng Wei,Yang Zhao,Ceyuan Yang,Chen Change Loy,Lu Jiang
発行日 2025-01-02 16:19:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク