要約
ビデオの内容に影響を与える根本的な要因の不確実性を知ることが難しいため、ビデオの将来のフレームを予測することは困難です。
本稿では、時空間領域にわたる無限次元の潜在変数を持つ新しいビデオ予測モデルを提案します。
具体的には、最初にビデオの動きとコンテンツ情報を分解し、次に神経確率微分方程式を使用して時間的な動き情報を予測し、最後に、画像拡散モデルが予測された動きの特徴と前のフレームを条件付けて自己回帰的にビデオ フレームを生成します。
私たちのモデルのより優れた表現力と強力な確率学習機能により、最先端のビデオ予測パフォーマンスが実現します。
同様に、私たちのモデルは時間的連続予測、つまり任意の高いフレームレートで将来のビデオフレームを教師なしで予測することもできます。
コードは \url{https://github.com/XiYe20/STDiffProject} で入手できます。
要約(オリジナル)
Predicting future frames of a video is challenging because it is difficult to learn the uncertainty of the underlying factors influencing their contents. In this paper, we propose a novel video prediction model, which has infinite-dimensional latent variables over the spatio-temporal domain. Specifically, we first decompose the video motion and content information, then take a neural stochastic differential equation to predict the temporal motion information, and finally, an image diffusion model autoregressively generates the video frame by conditioning on the predicted motion feature and the previous frame. The better expressiveness and stronger stochasticity learning capability of our model lead to state-of-the-art video prediction performances. As well, our model is able to achieve temporal continuous prediction, i.e., predicting in an unsupervised way the future video frames with an arbitrarily high frame rate. Our code is available at \url{https://github.com/XiYe20/STDiffProject}.
arxiv情報
| 著者 | Xi Ye,Guillaume-Alexandre Bilodeau |
| 発行日 | 2023-12-11 16:12:43+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google