MAGVIT: Masked Generative Video Transformer


タイトル:MAGVIT:Masked Generative Video Transformer

– 1つのモデルでさまざまなビデオ合成タスクを扱うために、MAGVIT(マスク付き生成ビデオトランスフォーマー)を導入します。
– 3D Tokenizerを導入して、ビデオを空間的-時間的なビジュアルトークンに量子化し、マスクされたビデオトークンモデリングのためのエンベディング手法を提案し、マルチタスク学習を促進します。
– MAGVITの品質、効率、柔軟性を示すために、包括的な実験を行います。
– 実験の結果、MAGVITは、(i)Kinetics-600を含む3つのビデオ生成ベンチマークで最高のFVDを確立し、最先端のアプローチに堂々差をつけることが示されました。
– (ii)拡散モデルに対して2桁、自己回帰モデルに対して60倍にわたり、既存の方法を超える推論時間を持っています。
– (iii)単一のMAGVITモデルは、10種類の異なる世代タスクをサポートし、異なるビジュアルドメインのビデオにわたって一般化します。
– ソースコードとトレーニングモデルは、https://magvit.cs.cmu.eduで一般に公開されます。


We introduce the MAsked Generative VIdeo Transformer, MAGVIT, to tackle various video synthesis tasks with a single model. We introduce a 3D tokenizer to quantize a video into spatial-temporal visual tokens and propose an embedding method for masked video token modeling to facilitate multi-task learning. We conduct extensive experiments to demonstrate the quality, efficiency, and flexibility of MAGVIT. Our experiments show that (i) MAGVIT performs favorably against state-of-the-art approaches and establishes the best-published FVD on three video generation benchmarks, including the challenging Kinetics-600. (ii) MAGVIT outperforms existing methods in inference time by two orders of magnitude against diffusion models and by 60x against autoregressive models. (iii) A single MAGVIT model supports ten diverse generation tasks and generalizes across videos from different visual domains. The source code and trained models will be released to the public at


著者 Lijun Yu,Yong Cheng,Kihyuk Sohn,José Lezama,Han Zhang,Huiwen Chang,Alexander G. Hauptmann,Ming-Hsuan Yang,Yuan Hao,Irfan Essa,Lu Jiang
発行日 2023-04-05 02:32:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CV パーマリンク