Four-Plane Factorized Video Autoencoders

要約

潜在変数生成モデルは、画像やビデオの合成などの生成タスクのための強力なツールとして登場しました。
これらのモデルは、高解像度データを圧縮された低次元の潜在空間にマッピングする事前トレーニング済みオートエンコーダーによって実現され、その後、必要な計算リソースを減らしながら生成モデルを開発できます。
潜在変数モデルの有効性にもかかわらず、ビデオなどの高次元領域への潜在変数モデルの直接適用は、効率的なトレーニングと推論に対して依然として課題をもたらしています。
この論文では、入力サイズに応じてサブリニアに増加する 4 平面の因数分解された潜在空間に体積データを投影するオートエンコーダーを提案します。これは、ビデオのような高次元データに最適です。
私たちの因数分解モデルの設計は、クラス条件付き生成、フレーム予測、ビデオ補間など、潜在拡散モデル (LDM) を使用した多くの条件付き生成タスクへの直接的な導入をサポートします。
私たちの結果は、提案された 4 平面の潜在空間が、重度の圧縮にもかかわらず、高忠実度の再構成に必要な豊富な表現を保持し、同時に LDM の動作速度とメモリが大幅に向上することを可能にすることを示しています。

要約(オリジナル)

Latent variable generative models have emerged as powerful tools for generative tasks including image and video synthesis. These models are enabled by pretrained autoencoders that map high resolution data into a compressed lower dimensional latent space, where the generative models can subsequently be developed while requiring fewer computational resources. Despite their effectiveness, the direct application of latent variable models to higher dimensional domains such as videos continues to pose challenges for efficient training and inference. In this paper, we propose an autoencoder that projects volumetric data onto a four-plane factorized latent space that grows sublinearly with the input size, making it ideal for higher dimensional data like videos. The design of our factorized model supports straightforward adoption in a number of conditional generation tasks with latent diffusion models (LDMs), such as class-conditional generation, frame prediction, and video interpolation. Our results show that the proposed four-plane latent space retains a rich representation needed for high-fidelity reconstructions despite the heavy compression, while simultaneously enabling LDMs to operate with significant improvements in speed and memory.

arxiv情報

著者 Mohammed Suhail,Carlos Esteves,Leonid Sigal,Ameesh Makadia
発行日 2024-12-05 18:58:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク