WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model

要約

ビデオ バリエーション オートエンコーダ (VAE) はビデオを低次元の潜在空間にエンコードし、モデルのトレーニング コストを削減するためのほとんどの潜在ビデオ拡散モデル (LVDM) の重要なコンポーネントになります。
ただし、生成されるビデオの解像度と長さが増加するにつれて、ビデオ VAE のエンコード コストが LVDM のトレーニングにおける制限のボトルネックになります。
さらに、ほとんどの LVDM で採用されているブロック単位の推論方法では、長時間のビデオを処理するときに潜在スペースの不連続が発生する可能性があります。
計算上のボトルネックに対処する鍵は、ビデオを個別のコンポーネントに分解し、重要な情報を効率的にエンコードすることにあります。
ウェーブレット変換はビデオを複数の周波数領域コンポーネントに分解し、効率を大幅に向上させることができるため、マルチレベル ウェーブレット変換を活用して潜在表現への低周波エネルギー フローを促進するオートエンコーダであるウェーブレット フロー VAE (WF-VAE) を提案します。
さらに、ブロック単位の推論中に潜在空間の整合性を維持する Causal Cache と呼ばれる手法を導入します。
最先端のビデオ VAE と比較して、WF-VAE は PSNR と LPIPS メトリクスの両方で優れたパフォーマンスを示し、競争力のある再構成品質を維持しながら、2 倍の高いスループットと 4 倍のメモリ消費量の削減を実現します。
コードとモデルは https://github.com/PKU-YuanGroup/WF-VAE で入手できます。

要約(オリジナル)

Video Variational Autoencoder (VAE) encodes videos into a low-dimensional latent space, becoming a key component of most Latent Video Diffusion Models (LVDMs) to reduce model training costs. However, as the resolution and duration of generated videos increase, the encoding cost of Video VAEs becomes a limiting bottleneck in training LVDMs. Moreover, the block-wise inference method adopted by most LVDMs can lead to discontinuities of latent space when processing long-duration videos. The key to addressing the computational bottleneck lies in decomposing videos into distinct components and efficiently encoding the critical information. Wavelet transform can decompose videos into multiple frequency-domain components and improve the efficiency significantly, we thus propose Wavelet Flow VAE (WF-VAE), an autoencoder that leverages multi-level wavelet transform to facilitate low-frequency energy flow into latent representation. Furthermore, we introduce a method called Causal Cache, which maintains the integrity of latent space during block-wise inference. Compared to state-of-the-art video VAEs, WF-VAE demonstrates superior performance in both PSNR and LPIPS metrics, achieving 2x higher throughput and 4x lower memory consumption while maintaining competitive reconstruction quality. Our code and models are available at https://github.com/PKU-YuanGroup/WF-VAE.

arxiv情報

著者 Zongjian Li,Bin Lin,Yang Ye,Liuhan Chen,Xinhua Cheng,Shenghai Yuan,Li Yuan
発行日 2024-11-26 14:23:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク