要約
ビデオ フレーム補間は、観察されたフレーム間の現実的な欠落フレームを回復し、低フレーム レートのビデオから高フレーム レートのビデオを生成することを目的としています。
ただし、追加のガイダンスがなければ、フレーム間の動きが大きいため、この問題は適切に設定されません。
イベントベースのビデオ フレーム補間 (EVFI) は、まばらで高時間解像度のイベント測定をモーション ガイダンスとして使用することで、この課題に対処します。
このガイダンスにより、EVFI メソッドはフレームのみのメソッドよりも大幅に優れたパフォーマンスを得ることができます。
しかし、これまでの EVFI 手法は、ペアになったイベント フレーム トレーニング データの限られたセットに依存しており、そのパフォーマンスと汎化能力が大幅に制限されていました。
この研究では、インターネット規模のデータセットでトレーニングされた事前トレーニング済みビデオ拡散モデルを EVFI に適応させることで、限られたデータの課題を克服しました。
私たちは、導入する新しいデータセットを含む、現実世界の EVFI データセットに対するアプローチを実験的に検証します。
私たちの方法は既存の方法よりも優れており、既存のアプローチよりもはるかに優れたカメラ間での一般化が可能です。
要約(オリジナル)
Video Frame Interpolation aims to recover realistic missing frames between observed frames, generating a high-frame-rate video from a low-frame-rate video. However, without additional guidance, the large motion between frames makes this problem ill-posed. Event-based Video Frame Interpolation (EVFI) addresses this challenge by using sparse, high-temporal-resolution event measurements as motion guidance. This guidance allows EVFI methods to significantly outperform frame-only methods. However, to date, EVFI methods have relied on a limited set of paired event-frame training data, severely limiting their performance and generalization capabilities. In this work, we overcome the limited data challenge by adapting pre-trained video diffusion models trained on internet-scale datasets to EVFI. We experimentally validate our approach on real-world EVFI datasets, including a new one that we introduce. Our method outperforms existing methods and generalizes across cameras far better than existing approaches.
arxiv情報
著者 | Jingxi Chen,Brandon Y. Feng,Haoming Cai,Tianfu Wang,Levi Burner,Dehao Yuan,Cornelia Fermuller,Christopher A. Metzler,Yiannis Aloimonos |
発行日 | 2024-12-10 18:55:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google