Repurposing Pre-trained Video Diffusion Models for Event-based Video Interpolation

要約

ビデオ フレーム補間は、観察されたフレーム間の現実的な欠落フレームを回復し、低フレーム レートのビデオから高フレーム レートのビデオを生成することを目的としています。
ただし、追加のガイダンスがなければ、フレーム間の動きが大きいため、この問題は適切に設定されません。
イベントベースのビデオ フレーム補間 (EVFI) は、まばらで高時間解像度のイベント測定をモーション ガイダンスとして使用することで、この課題に対処します。
このガイダンスにより、EVFI メソッドはフレームのみのメソッドよりも大幅に優れたパフォーマンスを得ることができます。
しかし、これまでの EVFI 手法は、ペアになったイベント フレーム トレーニング データの限られたセットに依存しており、そのパフォーマンスと汎化能力が大幅に制限されていました。
この研究では、インターネット規模のデータセットでトレーニングされた事前トレーニング済みビデオ拡散モデルを EVFI に適応させることで、限られたデータの課題を克服しました。
私たちは、導入する新しいデータセットを含む、現実世界の EVFI データセットに対するアプローチを実験的に検証します。
私たちの方法は既存の方法よりも優れており、既存のアプローチよりもはるかに優れたカメラ間での一般化が可能です。

要約(オリジナル)

Video Frame Interpolation aims to recover realistic missing frames between observed frames, generating a high-frame-rate video from a low-frame-rate video. However, without additional guidance, the large motion between frames makes this problem ill-posed. Event-based Video Frame Interpolation (EVFI) addresses this challenge by using sparse, high-temporal-resolution event measurements as motion guidance. This guidance allows EVFI methods to significantly outperform frame-only methods. However, to date, EVFI methods have relied on a limited set of paired event-frame training data, severely limiting their performance and generalization capabilities. In this work, we overcome the limited data challenge by adapting pre-trained video diffusion models trained on internet-scale datasets to EVFI. We experimentally validate our approach on real-world EVFI datasets, including a new one that we introduce. Our method outperforms existing methods and generalizes across cameras far better than existing approaches.

arxiv情報

著者 Jingxi Chen,Brandon Y. Feng,Haoming Cai,Tianfu Wang,Levi Burner,Dehao Yuan,Cornelia Fermuller,Christopher A. Metzler,Yiannis Aloimonos
発行日 2024-12-10 18:55:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク