Video Probabilistic Diffusion Models in Projected Latent Space

要約

タイトル:プロジェクション潜在空間におけるビデオ確率的拡散モデル
要約:
– 高次元性、複雑な時間的ダイナミクス、および大きな空間的変動により、高解像度かつ時間的に一貫性のあるビデオを合成することは、深層生成モデルの恩恵にもかかわらず、未だに課題である。
– 最近の拡散モデルの研究成果は、これらの課題を解決する潜在能力を持っていることを示しているが、計算やメモリーが効率的でないため、スケーラビリティが制限されている。
– この問題を解決するために、プロジェクション潜在ビデオ拡散モデル(PVDM)と呼ばれる新しいビデオ生成モデルを提案する。
– PVDMは、低次元潜在空間でビデオ分布を学習する確率的拡散モデルであり、限られたリソースで高解像度ビデオを効率的にトレーニングすることができる。
– 具体的には、PVDMは、(a)与えられたビデオを2D形状の潜在ベクトルに変換するオートエンコーダーと、(b)新しいファクタライズされた潜在空間とトレーニング/サンプリング手順に特化した拡散モデルアーキテクチャから構成される。
– 人気のあるビデオ生成データセットでの実験は、PVDMが以前のビデオ合成手法と比較して優れていることを示しており、例えば、UCF-101長時間ビデオ(128フレーム)の生成ベンチマークでFVDスコア639.7を取得し、以前の最先端の結果である1773.4を改善した。

要約(オリジナル)

Despite the remarkable progress in deep generative models, synthesizing high-resolution and temporally coherent videos still remains a challenge due to their high-dimensionality and complex temporal dynamics along with large spatial variations. Recent works on diffusion models have shown their potential to solve this challenge, yet they suffer from severe computation- and memory-inefficiency that limit the scalability. To handle this issue, we propose a novel generative model for videos, coined projected latent video diffusion models (PVDM), a probabilistic diffusion model which learns a video distribution in a low-dimensional latent space and thus can be efficiently trained with high-resolution videos under limited resources. Specifically, PVDM is composed of two components: (a) an autoencoder that projects a given video as 2D-shaped latent vectors that factorize the complex cubic structure of video pixels and (b) a diffusion model architecture specialized for our new factorized latent space and the training/sampling procedure to synthesize videos of arbitrary length with a single model. Experiments on popular video generation datasets demonstrate the superiority of PVDM compared with previous video synthesis methods; e.g., PVDM obtains the FVD score of 639.7 on the UCF-101 long video (128 frames) generation benchmark, which improves 1773.4 of the prior state-of-the-art.

arxiv情報

著者 Sihyun Yu,Kihyuk Sohn,Subin Kim,Jinwoo Shin
発行日 2023-03-30 07:08:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG パーマリンク