MAGVIT: Masked Generative Video Transformer

要約

タイトル:MAGVIT:Masked Generative Video Transformer
要約:

– 1つのモデルでさまざまなビデオ合成タスクを扱うために、MAGVIT(マスク付き生成ビデオトランスフォーマー)を導入します。
– 3D Tokenizerを導入して、ビデオを空間的-時間的なビジュアルトークンに量子化し、マスクされたビデオトークンモデリングのためのエンベディング手法を提案し、マルチタスク学習を促進します。
– MAGVITの品質、効率、柔軟性を示すために、包括的な実験を行います。
– 実験の結果、MAGVITは、(i)Kinetics-600を含む3つのビデオ生成ベンチマークで最高のFVDを確立し、最先端のアプローチに堂々差をつけることが示されました。
– (ii)拡散モデルに対して2桁、自己回帰モデルに対して60倍にわたり、既存の方法を超える推論時間を持っています。
– (iii)単一のMAGVITモデルは、10種類の異なる世代タスクをサポートし、異なるビジュアルドメインのビデオにわたって一般化します。
– ソースコードとトレーニングモデルは、https://magvit.cs.cmu.eduで一般に公開されます。

要約(オリジナル)

We introduce the MAsked Generative VIdeo Transformer, MAGVIT, to tackle various video synthesis tasks with a single model. We introduce a 3D tokenizer to quantize a video into spatial-temporal visual tokens and propose an embedding method for masked video token modeling to facilitate multi-task learning. We conduct extensive experiments to demonstrate the quality, efficiency, and flexibility of MAGVIT. Our experiments show that (i) MAGVIT performs favorably against state-of-the-art approaches and establishes the best-published FVD on three video generation benchmarks, including the challenging Kinetics-600. (ii) MAGVIT outperforms existing methods in inference time by two orders of magnitude against diffusion models and by 60x against autoregressive models. (iii) A single MAGVIT model supports ten diverse generation tasks and generalizes across videos from different visual domains. The source code and trained models will be released to the public at https://magvit.cs.cmu.edu.

arxiv情報

著者 Lijun Yu,Yong Cheng,Kihyuk Sohn,José Lezama,Han Zhang,Huiwen Chang,Alexander G. Hauptmann,Ming-Hsuan Yang,Yuan Hao,Irfan Essa,Lu Jiang
発行日 2023-04-05 02:32:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク