Latent Video Diffusion Models for High-Fidelity Long Video Generation

要約

AI によって生成されたコンテンツは最近多くの注目を集めていますが、写真のようにリアルなビデオ合成は依然として困難です。
この分野では GAN と自己回帰モデルを使用した多くの試みが行われてきましたが、生成されたビデオの視覚的な品質と長さは満足のいくものではありません。
拡散モデルは最近注目すべき結果を示していますが、かなりの計算リソースが必要です。
これに対処するために、低次元の 3D 潜在空間を活用して軽量のビデオ拡散モデルを導入し、限られた計算予算の下で以前のピクセル空間のビデオ拡散モデルを大幅に上回りました。
さらに、1000 フレームを超える長いビデオを生成できるように、潜在空間での階層的な拡散を提案します。
長いビデオ生成のパフォーマンス低下の問題をさらに克服するために、ビデオの長さの延長中に蓄積されたエラーを効果的に軽減する条件付き潜在摂動と無条件ガイダンスを提案します。
さまざまなカテゴリの小さなドメイン データセットでの広範な実験により、フレームワークが以前の強力なベースラインよりも現実的で長いビデオを生成することが示唆されました。
さらに、大規模なテキストからビデオへの生成への拡張機能を提供して、私たちの仕事の優位性を実証します。
私たちのコードとモデルは公開されます。

要約(オリジナル)

AI-generated content has attracted lots of attention recently, but photo-realistic video synthesis is still challenging. Although many attempts using GANs and autoregressive models have been made in this area, the visual quality and length of generated videos are far from satisfactory. Diffusion models have shown remarkable results recently but require significant computational resources. To address this, we introduce lightweight video diffusion models by leveraging a low-dimensional 3D latent space, significantly outperforming previous pixel-space video diffusion models under a limited computational budget. In addition, we propose hierarchical diffusion in the latent space such that longer videos with more than one thousand frames can be produced. To further overcome the performance degradation issue for long video generation, we propose conditional latent perturbation and unconditional guidance that effectively mitigate the accumulated errors during the extension of video length. Extensive experiments on small domain datasets of different categories suggest that our framework generates more realistic and longer videos than previous strong baselines. We additionally provide an extension to large-scale text-to-video generation to demonstrate the superiority of our work. Our code and models will be made publicly available.

arxiv情報

著者 Yingqing He,Tianyu Yang,Yong Zhang,Ying Shan,Qifeng Chen
発行日 2023-03-20 17:29:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク