Photorealistic Video Generation with Diffusion Models

要約

拡散モデリングによるフォトリアリスティックなビデオ生成のためのトランスベースのアプローチである W.A.L.T を紹介します。
私たちのアプローチには 2 つの重要な設計上の決定があります。
まず、コーザル エンコーダーを使用して、統一された潜在空間内で画像とビデオを共同圧縮し、モダリティ全体でのトレーニングと生成を可能にします。
第 2 に、記憶とトレーニングの効率を高めるために、空間および時空間の共同生成モデリングに合わせて調整されたウィンドウ アテンション アーキテクチャを使用します。
これらの設計上の決定を総合すると、分類子を使用しないガイダンスを使用せずに、確立されたビデオ (UCF-101 および Kinetics-600) および画像 (ImageNet) 生成ベンチマークで最先端のパフォーマンスを達成することができます。
最後に、ベースの潜在ビデオ拡散モデルと、$8$ で $512 \times 896$ の解像度のビデオを生成する 2 つのビデオ超解像度拡散モデルで構成される、テキストからビデオへの生成タスク用の 3 つのモデルのカスケードもトレーニングします。
1 秒あたりのフレーム数。

要約(オリジナル)

We present W.A.L.T, a transformer-based approach for photorealistic video generation via diffusion modeling. Our approach has two key design decisions. First, we use a causal encoder to jointly compress images and videos within a unified latent space, enabling training and generation across modalities. Second, for memory and training efficiency, we use a window attention architecture tailored for joint spatial and spatiotemporal generative modeling. Taken together these design decisions enable us to achieve state-of-the-art performance on established video (UCF-101 and Kinetics-600) and image (ImageNet) generation benchmarks without using classifier free guidance. Finally, we also train a cascade of three models for the task of text-to-video generation consisting of a base latent video diffusion model, and two video super-resolution diffusion models to generate videos of $512 \times 896$ resolution at $8$ frames per second.

arxiv情報

著者 Agrim Gupta,Lijun Yu,Kihyuk Sohn,Xiuye Gu,Meera Hahn,Li Fei-Fei,Irfan Essa,Lu Jiang,José Lezama
発行日 2023-12-11 18:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク