Repurposing Pre-trained Video Diffusion Models for Event-based Video Interpolation

要約

ビデオフレーム補間は、観測されたフレーム間で現実的な欠落フレームを回復し、低フレームレートビデオから高フレームレートビデオを生成することを目的としています。
ただし、追加のガイダンスがなければ、フレーム間の大きな動きにより、この問題が不適切になります。
イベントベースのビデオフレーム補間(EVFI)は、モーションガイダンスとしてまばらで高度な分解イベント測定を使用することにより、この課題に対処します。
このガイダンスにより、EVFIメソッドはフレームのみのメソッドを大幅に上回ることができます。
ただし、これまで、EVFIメソッドは、ペアのイベントフレームトレーニングデータの限られたセットに依存しており、パフォーマンスと一般化機能を厳しく制限しています。
この作業では、インターネットスケールのデータセットでトレーニングされた事前に訓練されたビデオ拡散モデルをEVFIに適応させることにより、限られたデータチャレンジを克服します。
導入する新しいデータセットを含む、実際のEVFIデータセットに関するアプローチを実験的に検証します。
私たちの方法は、既存の方法を上回り、既存のアプローチよりもはるかにカメラ全体で一般化します。

要約(オリジナル)

Video Frame Interpolation aims to recover realistic missing frames between observed frames, generating a high-frame-rate video from a low-frame-rate video. However, without additional guidance, the large motion between frames makes this problem ill-posed. Event-based Video Frame Interpolation (EVFI) addresses this challenge by using sparse, high-temporal-resolution event measurements as motion guidance. This guidance allows EVFI methods to significantly outperform frame-only methods. However, to date, EVFI methods have relied on a limited set of paired event-frame training data, severely limiting their performance and generalization capabilities. In this work, we overcome the limited data challenge by adapting pre-trained video diffusion models trained on internet-scale datasets to EVFI. We experimentally validate our approach on real-world EVFI datasets, including a new one that we introduce. Our method outperforms existing methods and generalizes across cameras far better than existing approaches.

arxiv情報

著者 Jingxi Chen,Brandon Y. Feng,Haoming Cai,Tianfu Wang,Levi Burner,Dehao Yuan,Cornelia Fermuller,Christopher A. Metzler,Yiannis Aloimonos
発行日 2025-03-25 17:58:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク