Video Creation by Demonstration

要約

私たちは、新しいビデオ作成体験、つまりデモンストレーションによるビデオ作成を探求します。
デモンストレーション ビデオと別のシーンのコンテキスト画像が与えられると、コンテキスト画像から自然に続き、デモンストレーションのアクション コンセプトを実行する物理的にもっともらしいビデオを生成します。
この機能を有効にするために、条件付きの将来のフレーム予測によってラベルのないビデオから学習する自己教師ありトレーニング アプローチである $\delta$-Diffusion を紹介します。
明示的な信号に基づく既存のほとんどのビデオ生成制御とは異なり、一般的なビデオに必要な柔軟性と表現力を最大限に高めるために、暗黙的な潜在制御の形式を採用しています。
外観のボトルネック設計を最上位に持つビデオ基盤モデルを活用することで、デモビデオから潜在的なアクションを抽出し、外観の漏れを最小限に抑えて生成プロセスを調整します。
経験的に、$\delta$-Diffusion は人間の好みと大規模なマシンの評価の両方の点で関連するベースラインを上回っており、インタラクティブなワールド シミュレーションに対する可能性を示しています。
サンプルビデオの生成結果は https://delta-diffusion.github.io/ で入手できます。

要約(オリジナル)

We explore a novel video creation experience, namely Video Creation by Demonstration. Given a demonstration video and a context image from a different scene, we generate a physically plausible video that continues naturally from the context image and carries out the action concepts from the demonstration. To enable this capability, we present $\delta$-Diffusion, a self-supervised training approach that learns from unlabeled videos by conditional future frame prediction. Unlike most existing video generation controls that are based on explicit signals, we adopts the form of implicit latent control for maximal flexibility and expressiveness required by general videos. By leveraging a video foundation model with an appearance bottleneck design on top, we extract action latents from demonstration videos for conditioning the generation process with minimal appearance leakage. Empirically, $\delta$-Diffusion outperforms related baselines in terms of both human preference and large-scale machine evaluations, and demonstrates potentials towards interactive world simulation. Sampled video generation results are available at https://delta-diffusion.github.io/.

arxiv情報

著者 Yihong Sun,Hao Zhou,Liangzhe Yuan,Jennifer J. Sun,Yandong Li,Xuhui Jia,Hartwig Adam,Bharath Hariharan,Long Zhao,Ting Liu
発行日 2024-12-12 18:41:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク