Generating Long Videos of Dynamic Scenes

要約

我々は、物体の動き、カメラ視点の変化、時間経過に伴って生じる新しいコンテンツを正確に再現する映像生成モデルを提案する。既存の映像生成手法は、実環境で期待されるダイナミクスやオブジェクトの持続性といった一貫性を維持しながら、時間の関数として新しいコンテンツを生成することに失敗することが多い。よくある失敗例は、時間的一貫性を提供するために帰納的バイアスに過度に依存するため、コンテンツが変化しないことで、例えば、ビデオ全体のコンテンツを決定する単一の潜在的コードのようなものです。一方、長期的な一貫性がない場合、生成された映像は異なるシーン間で非現実的な変形をする可能性がある。これらの限界に対処するため、我々は時間潜在表現を再設計することで時間軸を優先し、より長い動画で学習することでデータから長期的な一貫性を学習する。このため、低解像度の長い動画と高解像度の短い動画を別々に学習する、2段階の学習戦略を採用した。本モデルの能力を評価するために、長時間の時間的ダイナミクスに焦点を当てた2つの新しいベンチマークデータセットを導入する。

要約(オリジナル)

We present a video generation model that accurately reproduces object motion, changes in camera viewpoint, and new content that arises over time. Existing video generation methods often fail to produce new content as a function of time while maintaining consistencies expected in real environments, such as plausible dynamics and object persistence. A common failure case is for content to never change due to over-reliance on inductive biases to provide temporal consistency, such as a single latent code that dictates content for the entire video. On the other extreme, without long-term consistency, generated videos may morph unrealistically between different scenes. To address these limitations, we prioritize the time axis by redesigning the temporal latent representation and learning long-term consistency from data by training on longer videos. To this end, we leverage a two-phase training strategy, where we separately train using longer videos at a low resolution and shorter videos at a high resolution. To evaluate the capabilities of our model, we introduce two new benchmark datasets with explicit focus on long-term temporal dynamics.

arxiv情報

著者 Tim Brooks,Janne Hellsten,Miika Aittala,Ting-Chun Wang,Timo Aila,Jaakko Lehtinen,Ming-Yu Liu,Alexei A. Efros,Tero Karras
発行日 2022-06-09 06:24:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.NE パーマリンク