要約
最近の進歩にもかかわらず、既存のフレーム補間方法は、非常に高解像度の入力の処理と、繰り返しテクスチャ、薄いオブジェクト、大きな動きなどの困難なケースの処理に依然として苦労しています。
これらの問題に対処するために、標準ベンチマークで競争力のあるパフォーマンスを達成しながら、これらのシナリオに優れている高解像度フレーム補間HIFIのパッチベースのカスケードピクセル拡散モデルを導入します。
低解像度から高解像度から高解像度から高解像度まで一連の画像を生成するカスケードは、粗いソリューションのグローバルコンテキストと高解像度出力の詳細なコンテキストの両方を必要とする大規模または複雑な動きで大幅に役立ちます。
ただし、ますます大規模な解像度で拡散を実行するカスケード拡散モデルに関する以前の作業とは反対に、入力のパッチと以前のソリューションを処理することにより、同じ解像度で常に拡散を実行し、拡散を実行する単一のモデルを使用します。
推論時に、これによりメモリの使用量が大幅に削減され、単一のモデルが許可され、フレーム補間(ベースモデルのタスク)と空間的アップサンプリングの両方を解き、トレーニングコストも節約できます。
HIFIは、さまざまなベンチマーク(Vimeo、XIPH、X-Test、およびSEPE-8K)で同等または最先端のパフォーマンスを実現し、グローバルなコンテキストを必要とする高解像度の画像と複雑な繰り返しテクスチャに優れています。
さらに、特に挑戦的なケースに焦点を当てた新しいデータセット、Lamorを紹介し、HiFiは他のベースラインを大幅に上回ります。
ビデオの結果については、プロジェクトページをご覧ください:https://hifi-diffusion.github.io
要約(オリジナル)
Despite the recent progress, existing frame interpolation methods still struggle with processing extremely high resolution input and handling challenging cases such as repetitive textures, thin objects, and large motion. To address these issues, we introduce a patch-based cascaded pixel diffusion model for high resolution frame interpolation, HIFI, that excels in these scenarios while achieving competitive performance on standard benchmarks. Cascades, which generate a series of images from low to high resolution, can help significantly with large or complex motion that require both global context for a coarse solution and detailed context for high resolution output. However, contrary to prior work on cascaded diffusion models which perform diffusion on increasingly large resolutions, we use a single model that always performs diffusion at the same resolution and upsamples by processing patches of the inputs and the prior solution. At inference time, this drastically reduces memory usage and allows a single model, solving both frame interpolation (base model’s task) and spatial up-sampling, saving training cost as well. HIFI excels at high-resolution images and complex repeated textures that require global context, achieving comparable or state-of-the-art performance on various benchmarks (Vimeo, Xiph, X-Test, and SEPE-8K). We further introduce a new dataset, LaMoR, that focuses on particularly challenging cases, and HIFI significantly outperforms other baselines. Please visit our project page for video results: https://hifi-diffusion.github.io
arxiv情報
著者 | Junhwa Hur,Charles Herrmann,Saurabh Saxena,Janne Kontkanen,Wei-Sheng Lai,Yichang Shih,Michael Rubinstein,David J. Fleet,Deqing Sun |
発行日 | 2025-04-18 17:32:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google