LDMVFI: Video Frame Interpolation with Latent Diffusion Models

要約

ビデオ フレーム補間 (VFI) に関する既存の研究では、ほとんどの場合、出力とグラウンド トゥルース フレーム間の L1、L2、または深い特徴空間の距離 (VGG 損失など) を最小化することによってトレーニングされたディープ ニューラル ネットワークが使用されています。
ただし、最近の研究では、これらの指標は知覚的な VFI の品質を示す指標としては不十分であることが示されています。
知覚指向の VFI 手法の開発に向けて、この研究では潜在拡散モデルベースの VFI、LDMVFI を提案します。
これは、VFI 問題を条件付き生成問題として定式化することで、生成の観点から VFI 問題にアプローチします。
潜在拡散モデルを使用して VFI に対処する最初の取り組みとして、既存の VFI 文献で使用されている一般的なテスト セットに基づいてメソッドを厳密にベンチマークします。
私たちの定量的な実験とユーザー調査により、LDMVFI は、高解像度領域であっても、最新技術と比較して良好な知覚品質でビデオ コンテンツを補間できることが示されています。
私たちのコードは https://github.com/danier97/LDMVFI で入手できます。

要約(オリジナル)

Existing works on video frame interpolation (VFI) mostly employ deep neural networks that are trained by minimizing the L1, L2, or deep feature space distance (e.g. VGG loss) between their outputs and ground-truth frames. However, recent works have shown that these metrics are poor indicators of perceptual VFI quality. Towards developing perceptually-oriented VFI methods, in this work we propose latent diffusion model-based VFI, LDMVFI. This approaches the VFI problem from a generative perspective by formulating it as a conditional generation problem. As the first effort to address VFI using latent diffusion models, we rigorously benchmark our method on common test sets used in the existing VFI literature. Our quantitative experiments and user study indicate that LDMVFI is able to interpolate video content with favorable perceptual quality compared to the state of the art, even in the high-resolution regime. Our code is available at https://github.com/danier97/LDMVFI.

arxiv情報

著者 Duolikun Danier,Fan Zhang,David Bull
発行日 2023-12-11 15:17:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク