Generative Inbetweening: Adapting Image-to-Video Models for Keyframe Interpolation

要約

一対の入力キーフレーム間で一貫した動きを持つビデオシーケンスを生成する方法を紹介します。
キーフレーム補間、つまり 2 つの入力フレーム間にビデオを生成するために、事前トレーニングされた大規模な画像からビデオへの拡散モデル (元々は単一の入力画像から時間的に前方に進むビデオを生成するようにトレーニングされた) を適応させます。
この適応は、単一の入力画像から時間的に逆方向に移動するビデオを予測するモデルのバージョンを生成する軽量の微調整技術を通じて実現されます。
このモデルは (元の前進モデルとともに) その後、2 つのキーフレームのそれぞれから始まる重複するモデル推定を結合する双方向拡散サンプリング プロセスで使用されます。
私たちの実験は、私たちの方法が既存の拡散ベースの方法と従来のフレーム補間技術の両方よりも優れていることを示しています。

要約(オリジナル)

We present a method for generating video sequences with coherent motion between a pair of input key frames. We adapt a pretrained large-scale image-to-video diffusion model (originally trained to generate videos moving forward in time from a single input image) for key frame interpolation, i.e., to produce a video in between two input frames. We accomplish this adaptation through a lightweight fine-tuning technique that produces a version of the model that instead predicts videos moving backwards in time from a single input image. This model (along with the original forward-moving model) is subsequently used in a dual-directional diffusion sampling process that combines the overlapping model estimates starting from each of the two keyframes. Our experiments show that our method outperforms both existing diffusion-based methods and traditional frame interpolation techniques.

arxiv情報

著者 Xiaojuan Wang,Boyang Zhou,Brian Curless,Ira Kemelmacher-Shlizerman,Aleksander Holynski,Steven M. Seitz
発行日 2024-08-27 17:57:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク