CV-VAE: A Compatible Video VAE for Latent Generative Video Models

要約

変分オートエンコーダー (VAE) などのネットワークを利用したビデオの時空間圧縮は、OpenAI の SORA やその他の多数のビデオ生成モデルで重要な役割を果たしています。
たとえば、多くの LLM のようなビデオ モデルは、VQVAE フレームワーク内の 3D VAE から派生した離散トークンの分布を学習しますが、ほとんどの拡散ベースのビデオ モデルは、量子化せずに 2D VAE によって抽出された連続潜在の分布をキャプチャします。
時間圧縮は均一なフレーム サンプリングによって単純に実現されるため、連続するフレーム間の動きが滑らかではなくなります。
現在、研究コミュニティでは潜在拡散ベースのビデオ モデルに一般的に使用されている連続ビデオ (3D) VAE が不足しています。
さらに、現在の拡散ベースのアプローチは、事前にトレーニングされたテキストから画像への (T2I) モデルを使用して実装されることが多いため、既存の T2I モデルとの互換性を考慮せずにビデオ VAE を直接トレーニングすると、それらの間に潜在的なスペース ギャップが生じます。
初期化として T2I モデルを使用する場合でも、ギャップを埋めるためのトレーニングには膨大な計算リソースが必要です。
この問題に対処するために、我々は、潜在ビデオモデルのビデオVAE、すなわちCV-VAEを訓練するための方法を提案する。その潜在空間は、所与の画像VAE、例えば、安定拡散(SD)の画像VAEの潜在空間と互換性がある。
この互換性は、画像 VAE を使用して正則化損失を定式化することを含む、提案された新しい潜在空間正則化によって実現されます。
潜在空間の互換性の利点を活用して、単に等間隔でビデオ フレームをサンプリングするのではなく、真に時空間的に圧縮された潜在空間で、事前トレーニングされた T2I またはビデオ モデルからビデオ モデルをシームレスにトレーニングできます。
CV-VAE を使用すると、既存のビデオ モデルは最小限の微調整で 4 倍のフレームを生成できます。
提案されたビデオ VAE の有効性を実証するために、広範な実験が行われています。

要約(オリジナル)

Spatio-temporal compression of videos, utilizing networks such as Variational Autoencoders (VAE), plays a crucial role in OpenAI’s SORA and numerous other video generative models. For instance, many LLM-like video models learn the distribution of discrete tokens derived from 3D VAEs within the VQVAE framework, while most diffusion-based video models capture the distribution of continuous latent extracted by 2D VAEs without quantization. The temporal compression is simply realized by uniform frame sampling which results in unsmooth motion between consecutive frames. Currently, there lacks of a commonly used continuous video (3D) VAE for latent diffusion-based video models in the research community. Moreover, since current diffusion-based approaches are often implemented using pre-trained text-to-image (T2I) models, directly training a video VAE without considering the compatibility with existing T2I models will result in a latent space gap between them, which will take huge computational resources for training to bridge the gap even with the T2I models as initialization. To address this issue, we propose a method for training a video VAE of latent video models, namely CV-VAE, whose latent space is compatible with that of a given image VAE, e.g., image VAE of Stable Diffusion (SD). The compatibility is achieved by the proposed novel latent space regularization, which involves formulating a regularization loss using the image VAE. Benefiting from the latent space compatibility, video models can be trained seamlessly from pre-trained T2I or video models in a truly spatio-temporally compressed latent space, rather than simply sampling video frames at equal intervals. With our CV-VAE, existing video models can generate four times more frames with minimal finetuning. Extensive experiments are conducted to demonstrate the effectiveness of the proposed video VAE.

arxiv情報

著者 Sijie Zhao,Yong Zhang,Xiaodong Cun,Shaoshu Yang,Muyao Niu,Xiaoyu Li,Wenbo Hu,Ying Shan
発行日 2024-05-30 17:33:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV パーマリンク