Latent Video Diffusion Models for High-Fidelity Long Video Generation


AI によって生成されたコンテンツは最近多くの注目を集めていますが、写真のようにリアルなビデオ合成は依然として困難です。
この分野では GAN と自己回帰モデルを使用した多くの試みが行われてきましたが、生成されたビデオの視覚的な品質と長さは満足のいくものではありません。
これに対処するために、低次元の 3D 潜在空間を活用して軽量のビデオ拡散モデルを導入し、限られた計算予算の下で以前のピクセル空間のビデオ拡散モデルを大幅に上回りました。
さらに、1000 フレームを超える長いビデオを生成できるように、潜在空間での階層的な拡散を提案します。
さまざまなカテゴリの小さなドメイン データセットでの広範な実験により、フレームワークが以前の強力なベースラインよりも現実的で長いビデオを生成することが示唆されました。


AI-generated content has attracted lots of attention recently, but photo-realistic video synthesis is still challenging. Although many attempts using GANs and autoregressive models have been made in this area, the visual quality and length of generated videos are far from satisfactory. Diffusion models have shown remarkable results recently but require significant computational resources. To address this, we introduce lightweight video diffusion models by leveraging a low-dimensional 3D latent space, significantly outperforming previous pixel-space video diffusion models under a limited computational budget. In addition, we propose hierarchical diffusion in the latent space such that longer videos with more than one thousand frames can be produced. To further overcome the performance degradation issue for long video generation, we propose conditional latent perturbation and unconditional guidance that effectively mitigate the accumulated errors during the extension of video length. Extensive experiments on small domain datasets of different categories suggest that our framework generates more realistic and longer videos than previous strong baselines. We additionally provide an extension to large-scale text-to-video generation to demonstrate the superiority of our work. Our code and models will be made publicly available.


著者 Yingqing He,Tianyu Yang,Yong Zhang,Ying Shan,Qifeng Chen
発行日 2023-03-20 17:29:45+00:00
arxivサイト arxiv_id(pdf)



カテゴリー: cs.AI, cs.CV パーマリンク