LeanVAE: An Ultra-Efficient Reconstruction VAE for Video Diffusion Models

要約

潜在的なビデオ拡散モデル(LVDMS)の最近の進歩は、ビデオ変動自動エンコーダー(ビデオVAE)を活用して複雑なビデオデータをコンパクトな潜在スペースに圧縮することにより、ビデオ生成に革命をもたらしました。
これに対処するために、2つの重要な革新を導入する斬新で超効率の高いビデオVAEフレームワークであるLeanvaeを提案します。(1)近隣のフィードフォワード(NAF)モジュールと非重複パッチ操作に基づく軽量アーキテクチャ、計算コストを大幅に削減し、(2)ウェーブレットの統合は、測定された技術を強化します。
広範な実験では、ビデオの再構築と生成におけるLeanvaeの優位性を検証します。特に既存のビデオVAESよりも効率を高めることで、私たちのモデルは、競争力のある再構築品質を維持しながら、最大50倍の少ないフロップと44倍のより速い推論速度を提供し、https:/github.com/wethrake-repl/leanvaeで利用できるスケーラブルで効率的なビデオ生成の洞察を提供します。

要約(オリジナル)

Recent advances in Latent Video Diffusion Models (LVDMs) have revolutionized video generation by leveraging Video Variational Autoencoders (Video VAEs) to compress intricate video data into a compact latent space.However, as LVDM training scales, the computational overhead of Video VAEs becomes a critical bottleneck, particularly for encoding high-resolution videos. To address this, we propose LeanVAE, a novel and ultra-efficient Video VAE framework that introduces two key innovations: (1) a lightweight architecture based on a Neighborhood-Aware Feedforward (NAF) module and non-overlapping patch operations, drastically reducing computational cost, and (2) the integration of wavelet transforms and compressed sensing techniques to enhance reconstruction quality. Extensive experiments validate LeanVAE’s superiority in video reconstruction and generation, particularly in enhancing efficiency over existing Video VAEs.Our model offers up to 50x fewer FLOPs and 44x faster inference speed while maintaining competitive reconstruction quality, providing insights for scalable, efficient video generation.Our models and code are available at https://github.com/westlake-repl/LeanVAE.

arxiv情報

著者 Yu Cheng,Fajie Yuan
発行日 2025-03-18 14:58:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク