LDMVFI: Video Frame Interpolation with Latent Diffusion Models

要約

ビデオ フレーム補間 (VFI) に関する既存の研究では、主に、出力とグラウンド トゥルース フレーム間の L1 または L2 距離を最小限に抑えるようにトレーニングされたディープ ニューラル ネットワークが使用されています。
最近の進歩にもかかわらず、既存の VFI 手法は、特に大きな動きや動的なテクスチャなどの難しいシナリオの場合、知覚的に劣った結果を生み出す傾向があります。
知覚指向の VFI 手法の開発に向けて、潜在拡散モデルベースの VFI、LDMVFI を提案します。
これは、VFI 問題を条件付き生成問題として定式化することで、生成の観点から VFI 問題にアプローチします。
潜在拡散モデルを使用して VFI に対処する最初の取り組みとして、既存の VFI 文献で採用されている共通の評価プロトコルに従って、メソッドを厳密にベンチマークします。
私たちの定量的実験とユーザー調査は、LDMVFI が高解像度領域であっても、最新技術と比較して優れた知覚品質でビデオ コンテンツを補間できることを示しています。
私たちのソースコードはここで公開されます。

要約(オリジナル)

Existing works on video frame interpolation (VFI) mostly employ deep neural networks trained to minimize the L1 or L2 distance between their outputs and ground-truth frames. Despite recent advances, existing VFI methods tend to produce perceptually inferior results, particularly for challenging scenarios including large motions and dynamic textures. Towards developing perceptually-oriented VFI methods, we propose latent diffusion model-based VFI, LDMVFI. This approaches the VFI problem from a generative perspective by formulating it as a conditional generation problem. As the first effort to address VFI using latent diffusion models, we rigorously benchmark our method following the common evaluation protocol adopted in the existing VFI literature. Our quantitative experiments and user study indicate that LDMVFI is able to interpolate video content with superior perceptual quality compared to the state of the art, even in the high-resolution regime. Our source code will be made available here.

arxiv情報

著者 Duolikun Danier,Fan Zhang,David Bull
発行日 2023-07-17 15:51:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク