要約
さまざまな現実的な環境で長時間のビデオ完成を生成するノイズ除去拡散確率モデルに基づくビデオ モデリングのフレームワークを提示します。
テスト時に、他のサブセットに条件付けられたビデオ フレームの任意のサブセットをサンプリングできる生成モデルを導入し、この目的に適合したアーキテクチャを提示します。
そうすることで、長いビデオのフレームがサンプリングされる順序のさまざまなスケジュールを効率的に比較および最適化し、以前にサンプリングされたフレームに対して選択的なスパースおよび長距離調整を使用できます。
多数のデータセットに関する以前の作業よりも改善されたビデオ モデリングを示し、長さが 25 分を超える時間的に一貫性のあるビデオをサンプリングします。
さらに、新しいビデオ モデリング データセットと、CARLA 自動運転車シミュレーターで生成されたビデオに基づく意味的に意味のあるメトリックをリリースします。
要約(オリジナル)
We present a framework for video modeling based on denoising diffusion probabilistic models that produces long-duration video completions in a variety of realistic environments. We introduce a generative model that can at test-time sample any arbitrary subset of video frames conditioned on any other subset and present an architecture adapted for this purpose. Doing so allows us to efficiently compare and optimize a variety of schedules for the order in which frames in a long video are sampled and use selective sparse and long-range conditioning on previously sampled frames. We demonstrate improved video modeling over prior work on a number of datasets and sample temporally coherent videos over 25 minutes in length. We additionally release a new video modeling dataset and semantically meaningful metrics based on videos generated in the CARLA self-driving car simulator.
arxiv情報
著者 | William Harvey,Saeid Naderiparizi,Vaden Masrani,Christian Weilbach,Frank Wood |
発行日 | 2022-09-15 17:25:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google