REDUCIO! Generating 1024$\times$1024 Video within 16 Seconds using Extremely Compressed Motion Latents

要約

商用ビデオ生成モデルは、現実的で忠実度の高い結果を示していますが、依然として限られたアクセスに制限されています。
大規模アプリケーションにとっての重大な障害の 1 つは、トレーニングと推論のコストが高額であることです。
この論文では、ビデオには画像よりもはるかに多くの冗長な情報が含まれているため、コンテンツ画像に基づいた非常に少ない動きの潜在によってエンコードできると主張します。
この目標に向けて、私たちはビデオを極度に圧縮されたモーション潜在空間にエンコードするための画像条件付き VAE を設計します。
この魔法の Reducio チャームにより、品質を犠牲にすることなく、一般的な 2D VAE と比較して潜在を 64 倍削減できます。
このようなコンパクトな表現で拡散モデルをトレーニングすると、1K 解像度のビデオを簡単に生成できます。
次に、テキストから画像への変換とテキストから画像からビデオへの変換を順次実行する 2 段階のビデオ生成パラダイムを採用します。
広範な実験により、当社の Reducio-DiT は、限られた GPU リソースでトレーニングされたにもかかわらず、評価において優れたパフォーマンスを達成することが示されています。
さらに重要なことは、私たちの方法はトレーニングと推論の両方においてビデオ LDM の効率を大幅に向上させることです。
Reducio-DiT を合計約 3.2K のトレーニング時間でトレーニングし、単一の A100 GPU で 15.5 秒以内に 16 フレームの 1024*1024 ビデオ クリップを生成します。
コードは https://github.com/microsoft/Reducio-VAE でリリースされています。

要約(オリジナル)

Commercial video generation models have exhibited realistic, high-fidelity results but are still restricted to limited access. One crucial obstacle for large-scale applications is the expensive training and inference cost. In this paper, we argue that videos contain much more redundant information than images, thus can be encoded by very few motion latents based on a content image. Towards this goal, we design an image-conditioned VAE to encode a video to an extremely compressed motion latent space. This magic Reducio charm enables 64x reduction of latents compared to a common 2D VAE, without sacrificing the quality. Training diffusion models on such a compact representation easily allows for generating 1K resolution videos. We then adopt a two-stage video generation paradigm, which performs text-to-image and text-image-to-video sequentially. Extensive experiments show that our Reducio-DiT achieves strong performance in evaluation, though trained with limited GPU resources. More importantly, our method significantly boost the efficiency of video LDMs both in training and inference. We train Reducio-DiT in around 3.2K training hours in total and generate a 16-frame 1024*1024 video clip within 15.5 seconds on a single A100 GPU. Code released at https://github.com/microsoft/Reducio-VAE .

arxiv情報

著者 Rui Tian,Qi Dai,Jianmin Bao,Kai Qiu,Yifan Yang,Chong Luo,Zuxuan Wu,Yu-Gang Jiang
発行日 2024-11-20 18:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク