要約
ビデオ生成のための新しい潜在拡散トランスであるラテを提案します。
Latteは、最初に入力ビデオから空間的トークンを抽出し、次に一連の変圧器ブロックを採用して、潜在空間でビデオ分布をモデル化します。
ビデオから抽出されたかなりの数のトークンをモデル化するために、入力ビデオの空間的および時間的寸法を分解するという観点から、4つの効率的なバリエーションが導入されます。
生成されたビデオの品質を向上させるために、ビデオクリップパッチの埋め込み、モデルバリアント、タイムステップクラスの情報注入、時間的位置埋め込み、学習戦略など、厳密な実験分析を通じてラテのベストプラクティスを決定します。
当社の包括的な評価は、Latteが4つの標準ビデオ生成データセット、つまりFaceForensics、Skytimelaps、UCF101、およびTaichi-HDで最先端のパフォーマンスを達成していることを示しています。
さらに、Latteをテキストからビデオへの生成(T2V)タスクに拡張し、Latteは最近のT2Vモデルと競合する結果を達成します。
Latteは、変圧器をビデオ生成のための拡散モデルに組み込むことに関する将来の研究のための貴重な洞察を提供していると強く信じています。
要約(オリジナル)
We propose Latte, a novel Latent Diffusion Transformer for video generation. Latte first extracts spatio-temporal tokens from input videos and then adopts a series of Transformer blocks to model video distribution in the latent space. In order to model a substantial number of tokens extracted from videos, four efficient variants are introduced from the perspective of decomposing the spatial and temporal dimensions of input videos. To improve the quality of generated videos, we determine the best practices of Latte through rigorous experimental analysis, including video clip patch embedding, model variants, timestep-class information injection, temporal positional embedding, and learning strategies. Our comprehensive evaluation demonstrates that Latte achieves state-of-the-art performance across four standard video generation datasets, i.e., FaceForensics, SkyTimelapse, UCF101, and Taichi-HD. In addition, we extend Latte to the text-to-video generation (T2V) task, where Latte achieves results that are competitive with recent T2V models. We strongly believe that Latte provides valuable insights for future research on incorporating Transformers into diffusion models for video generation.
arxiv情報
著者 | Xin Ma,Yaohui Wang,Xinyuan Chen,Gengyun Jia,Ziwei Liu,Yuan-Fang Li,Cunjian Chen,Yu Qiao |
発行日 | 2025-05-01 09:40:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google