MagicVideo: Efficient Video Generation With Latent Diffusion Models

要約

タイトル:MagicVideo:潜在的拡散モデルに基づく効率的なビデオ生成

要約:

– MagicVideoは潜在的拡散モデルに基づくテキストからビデオを生成する効率的なフレームワークである。
– MagicVideoは、与えられたテキストの説明と整合性のとれたスムーズなビデオクリップを生成することができる。
– 3D U-Netデザインと低次元空間でビデオの分布をモデリングする方法により、単一のGPUカードで256×256の空間分解能を持つビデオクリップを合成することができ、FLOPsに関してビデオディフュージョンモデル(VDM)に比べて約64倍少ない計算量がかかります。
– 既存の作品とは異なり、RGB空間でビデオモデルを直接トレーニングするのではなく、事前にトレーニングされたVAEを使用してビデオクリップを低次元の潜在的な空間にマップし、拡散モデルを用いてビデオの潜在的なコードの分布を学びます。
– また、画像タスク用にトレーニングされたU-Netデノイザをビデオデータに適応させるための2つの新しい設計を導入しています。1つは、画像からビデオへの分布調整のためのフレームワイズな軽量アダプタであり、もう1つはフレーム間の時間依存関係を捕捉するための直接的な時間的注意モジュールです。そのため、テキストからイメージモデルの畳み込み演算子の情報的な重みをビデオトレーニングの加速に利用できます。
– 生成されたビデオのピクセルのダイザリングを改善するために、私たちはRGB再構成のための新しいVideoVAEオートエンコーダを提案しています。
– 大規模な実験を実施し、MagicVideoは、現実的なまたは想像上のコンテンツを持つ高品質のビデオクリップを生成できることを示しています。さらに例については、\url{https://magicvideo.github.io/#}を参照してください。

要約(オリジナル)

We present an efficient text-to-video generation framework based on latent diffusion models, termed MagicVideo. MagicVideo can generate smooth video clips that are concordant with the given text descriptions. Due to a novel and efficient 3D U-Net design and modeling video distributions in a low-dimensional space, MagicVideo can synthesize video clips with 256×256 spatial resolution on a single GPU card, which takes around 64x fewer computations than the Video Diffusion Models (VDM) in terms of FLOPs. In specific, unlike existing works that directly train video models in the RGB space, we use a pre-trained VAE to map video clips into a low-dimensional latent space and learn the distribution of videos’ latent codes via a diffusion model. Besides, we introduce two new designs to adapt the U-Net denoiser trained on image tasks to video data: a frame-wise lightweight adaptor for the image-to-video distribution adjustment and a directed temporal attention module to capture temporal dependencies across frames. Thus, we can exploit the informative weights of convolution operators from a text-to-image model for accelerating video training. To ameliorate the pixel dithering in the generated videos, we also propose a novel VideoVAE auto-encoder for better RGB reconstruction. We conduct extensive experiments and demonstrate that MagicVideo can generate high-quality video clips with either realistic or imaginary content. Refer to \url{https://magicvideo.github.io/#} for more examples.

arxiv情報

著者 Daquan Zhou,Weimin Wang,Hanshu Yan,Weiwei Lv,Yizhe Zhu,Jiashi Feng
発行日 2023-05-11 11:23:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク