Progressive Growing of Video Tokenizers for Highly Compressed Latent Spaces

要約

ビデオ トークナイザーは潜在ビデオ拡散モデルに不可欠であり、生のビデオ データを時空間的に圧縮された潜在空間に変換して効率的なトレーニングを実現します。
ただし、最先端のビデオ トークナイザーを拡張して、チャネル容量を増やすことなく 4 倍を超える時間圧縮率を達成するには、大きな課題が生じます。
この研究では、時間圧縮を強化するための代替アプローチを提案します。
低圧縮エンコーダからの時間的にサブサンプリングされたビデオの再構成品質は、元のビデオに適用された高圧縮エンコーダの再構成品質を上回ることがわかりました。
これは、高圧縮モデルが低圧縮モデルの表現を活用できることを示しています。
この洞察に基づいて、十分にトレーニングされた低圧縮モデルの上に高圧縮ブロックを段階的にトレーニングする、ブートストラップ型の高時間圧縮モデルを開発します。
私たちの方法には、事前トレーニングされた低圧縮モデルからの情報を保持し、完全なビデオ シーケンスから残りの詳細をキャプチャするように高圧縮ブロックをガイドするクロスレベル特徴混合モジュールが含まれています。
ビデオベンチマークの評価では、既存のビデオトークナイザーの直接拡張と比較して、私たちの方法が時間圧縮を強化しながら再構築の品質を大幅に向上させることが示されています。
さらに、結果として得られるコンパクトな潜在空間は、削減されたトークン予算で高品質のビデオを生成するためのビデオ拡散モデルを効果的にトレーニングします。

要約(オリジナル)

Video tokenizers are essential for latent video diffusion models, converting raw video data into spatiotemporally compressed latent spaces for efficient training. However, extending state-of-the-art video tokenizers to achieve a temporal compression ratio beyond 4x without increasing channel capacity poses significant challenges. In this work, we propose an alternative approach to enhance temporal compression. We find that the reconstruction quality of temporally subsampled videos from a low-compression encoder surpasses that of high-compression encoders applied to original videos. This indicates that high-compression models can leverage representations from lower-compression models. Building on this insight, we develop a bootstrapped high-temporal-compression model that progressively trains high-compression blocks atop well-trained lower-compression models. Our method includes a cross-level feature-mixing module to retain information from the pretrained low-compression model and guide higher-compression blocks to capture the remaining details from the full video sequence. Evaluation of video benchmarks shows that our method significantly improves reconstruction quality while increasing temporal compression compared to direct extensions of existing video tokenizers. Furthermore, the resulting compact latent space effectively trains a video diffusion model for high-quality video generation with a reduced token budget.

arxiv情報

著者 Aniruddha Mahapatra,Long Mai,Yitian Zhang,David Bourgin,Feng Liu
発行日 2025-01-09 18:55:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク