Explorative Inbetweening of Time and Space

要約

特定の開始フレームと終了フレームのみに基づいて任意のカメラと被写体の動きを合成するビデオ生成を制御する一般化されたタスクとして、有界生成を導入します。
私たちの目的は、元のモデルを追加でトレーニングしたり微調整したりすることなく、画像からビデオへのモデルに固有の一般化機能を最大限に活用することです。
これは、時間反転フュージョンと呼ばれる、提案された新しいサンプリング戦略によって実現されます。これは、それぞれ開始フレームと終了フレームで条件付けされた時間方向の前方ノイズ除去パスと後方ノイズ除去パスを融合します。
融合されたパスにより、2 つのフレームが滑らかに接続されたビデオが生成され、その間に忠実な被写体の動き、静的なシーンの斬新なビュー、および 2 つの境界フレームが同一である場合のシームレスなビデオ ループが生成されます。
画像ペアの多様な評価データセットを厳選し、最も近い既存の手法と比較します。
Time Reversal Fusion はすべてのサブタスクで関連作業よりも優れたパフォーマンスを発揮し、境界フレームによってガイドされる複雑なモーションと 3D 一貫性のあるビューを生成する能力を示していることがわかりました。
https://time-reversal.github.io のプロジェクト ページを参照してください。

要約(オリジナル)

We introduce bounded generation as a generalized task to control video generation to synthesize arbitrary camera and subject motion based only on a given start and end frame. Our objective is to fully leverage the inherent generalization capability of an image-to-video model without additional training or fine-tuning of the original model. This is achieved through the proposed new sampling strategy, which we call Time Reversal Fusion, that fuses the temporally forward and backward denoising paths conditioned on the start and end frame, respectively. The fused path results in a video that smoothly connects the two frames, generating inbetweening of faithful subject motion, novel views of static scenes, and seamless video looping when the two bounding frames are identical. We curate a diverse evaluation dataset of image pairs and compare against the closest existing methods. We find that Time Reversal Fusion outperforms related work on all subtasks, exhibiting the ability to generate complex motions and 3D-consistent views guided by bounded frames. See project page at https://time-reversal.github.io.

arxiv情報

著者 Haiwen Feng,Zheng Ding,Zhihao Xia,Simon Niklaus,Victoria Abrevaya,Michael J. Black,Xuaner Zhang
発行日 2024-03-21 17:57:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク