ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation

要約

テキストからビデオへのモデルは最近、急速かつ実質的な進歩を遂げました。
それにもかかわらず、データと計算リソースの制限により、リッチなモーションダイナミクスを備えた長いビデオの効率的な生成を達成することは依然として重要な課題です。
高品質、動的、および一時的に一貫した長いビデオを生成するために、このペーパーでは、ARモデルによって提供される粗い空間的および長距離時間情報を統合することにより、長いビデオ生成のための自己格付けモデルで拡散変圧器を強化する新しいフレームワークであるArlonを紹介します。
DITモデルをガイドします。
具体的には、Arlonにはいくつかの重要な革新が組み込まれています。1)潜在的なベクトル量子化された変動自動エンコーダー(VQ-VAE)は、DITモデルの入力潜在スペースをコンパクトな視覚トークンに圧縮し、ARとDITモデルを埋め、学習の複雑さと情報密度のバランスを取ります。
2)Adaptive Normベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDITモデルに統合し、ビデオ生成中の効果的なガイダンスを確保します。
3)AR推論から導入されたノイズの許容範囲を強化するために、DITモデルは、不確実性サンプリングモジュールに組み込まれた粗い視覚潜在トークンでトレーニングされます。
実験結果は、ArlonがVbenchから選択された11のメトリックの8つでベースラインOpensora-V1.2を大幅に上回ることを示しており、動的程度と美的品質の顕著な改善が、残りの3つで競争結果を提供し、同時に発電プロセスを加速します。
さらに、アーロンは長いビデオ生成で最先端のパフォーマンスを達成しています。
プログレッシブテキストプロンプトを使用して長いビデオの生成を示す実用的なアプリケーションとともに、推論効率の改善の詳細な分析が提示されています。
http://aka.ms/arlonのArlonのDemosを参照してください。

要約(オリジナル)

Text-to-video models have recently undergone rapid and substantial advancements. Nevertheless, due to limitations in data and computational resources, achieving efficient generation of long videos with rich motion dynamics remains a significant challenge. To generate high-quality, dynamic, and temporally consistent long videos, this paper presents ARLON, a novel framework that boosts diffusion Transformers with autoregressive models for long video generation, by integrating the coarse spatial and long-range temporal information provided by the AR model to guide the DiT model. Specifically, ARLON incorporates several key innovations: 1) A latent Vector Quantized Variational Autoencoder (VQ-VAE) compresses the input latent space of the DiT model into compact visual tokens, bridging the AR and DiT models and balancing the learning complexity and information density; 2) An adaptive norm-based semantic injection module integrates the coarse discrete visual units from the AR model into the DiT model, ensuring effective guidance during video generation; 3) To enhance the tolerance capability of noise introduced from the AR inference, the DiT model is trained with coarser visual latent tokens incorporated with an uncertainty sampling module. Experimental results demonstrate that ARLON significantly outperforms the baseline OpenSora-V1.2 on eight out of eleven metrics selected from VBench, with notable improvements in dynamic degree and aesthetic quality, while delivering competitive results on the remaining three and simultaneously accelerating the generation process. In addition, ARLON achieves state-of-the-art performance in long video generation. Detailed analyses of the improvements in inference efficiency are presented, alongside a practical application that demonstrates the generation of long videos using progressive text prompts. See demos of ARLON at http://aka.ms/arlon.

arxiv情報

著者 Zongyi Li,Shujie Hu,Shujie Liu,Long Zhou,Jeongsoo Choi,Lingwei Meng,Xun Guo,Jinyu Li,Hefei Ling,Furu Wei
発行日 2025-02-25 17:06:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク