要約
我々は、一連のテキストプロンプトが与えられると、リアルなビデオ合成を行うことができるモデル、Phenakiを発表する。テキストから動画を生成することは、計算コスト、高品質なテキスト-動画データの数量が限られていること、動画の長さがまちまちであることなどの理由から、特に困難である。これらの問題に対処するため、我々はビデオ表現を学習する新しいモデルを導入する。このモデルはビデオを離散的なトークンからなる小さな表現に圧縮するものである。このトークナイザーは時間的な因果的注意を用いることで、可変長のビデオでも動作することが可能である。テキストからビデオトークンを生成するために、我々は事前に計算されたテキストトークンを条件とする双方向マスク変換器を用いている。生成されたビデオトークンは、その後、実際のビデオを作成するためにデトークン化される。データの問題を解決するために、画像とテキストのペアの大規模なコーパスと、より少ない数のビデオとテキストの例に対する共同学習が、ビデオデータセットで利用可能なものを超える汎化をもたらすことを実証しています。Phenakiは、従来のビデオ生成手法と比較して、オープンドメインにおいて、一連のプロンプト(すなわち、時間可変テキストまたはストーリー)を条件とする任意の長さのビデオを生成することができる。時間可変のプロンプトから動画を生成する研究は、我々の知る限り、本論文が初めてである。また、フレーム単位のベースラインと比較して、提案するビデオエンコーダ・デコーダはビデオあたりのトークンの計算量は少ないが、時空間整合性はより優れている。
要約(オリジナル)
We present Phenaki, a model capable of realistic video synthesis, given a sequence of textual prompts. Generating videos from text is particularly challenging due to the computational cost, limited quantities of high quality text-video data and variable length of videos. To address these issues, we introduce a new model for learning video representation which compresses the video to a small representation of discrete tokens. This tokenizer uses causal attention in time, which allows it to work with variable-length videos. To generate video tokens from text we are using a bidirectional masked transformer conditioned on pre-computed text tokens. The generated video tokens are subsequently de-tokenized to create the actual video. To address data issues, we demonstrate how joint training on a large corpus of image-text pairs as well as a smaller number of video-text examples can result in generalization beyond what is available in the video datasets. Compared to the previous video generation methods, Phenaki can generate arbitrary long videos conditioned on a sequence of prompts (i.e. time variable text or a story) in open domain. To the best of our knowledge, this is the first time a paper studies generating videos from time variable prompts. In addition, compared to the per-frame baselines, the proposed video encoder-decoder computes fewer tokens per video but results in better spatio-temporal consistency.
arxiv情報
著者 | Ruben Villegas,Mohammad Babaeizadeh,Pieter-Jan Kindermans,Hernan Moraldo,Han Zhang,Mohammad Taghi Saffar,Santiago Castro,Julius Kunze,Dumitru Erhan |
発行日 | 2022-10-05 17:18:28+00:00 |
arxivサイト | arxiv_id(pdf) |