要約
ビデオは、その性質上、本質的に時間的なシーケンスです。
この研究では、自然言語処理における成功に触発された自己回帰 (AR) 言語モデルを使用して、時系列かつスケーラブルな方法でビデオをモデリングする可能性を探ります。
DiCoDe を紹介します。これは、拡散圧縮ディープ トークンを活用して、自己回帰的な方法で言語モデルを使用してビデオを生成する新しいアプローチです。
圧縮率が制限された低レベル表現を使用する既存の方法とは異なり、DiCoDe は、かなりの圧縮率 (トークン数の 1000 倍の削減) でディープ トークンを利用します。
この大幅な圧縮は、ビデオ拡散モデルの事前知識を活用して訓練されたトークナイザーによって可能になります。
ディープ トークンを使用すると、DiCoDe はビデオ生成にバニラ AR 言語モデルを採用できます。これは、ある視覚的な「言語」を別の「言語」に翻訳するのと似ています。
DiCoDe は、ビデオを時系列シーケンスとして扱うことで、自己回帰生成のための言語モデルの機能を最大限に活用します。
DiCoDe は、すぐに利用できる AR アーキテクチャを使用してスケーラブルであり、トレーニング用に 4 つの A100 GPU のみを使用して数秒から 1 分の範囲のビデオを生成できます。
私たちは DiCoDe を定量的および定性的な両方で評価し、効率的なトレーニングを確保しながら品質の点で既存の方法と同等のパフォーマンスを発揮することを実証します。
そのスケーラビリティを示すために、さまざまなパラメータ サイズを持つ一連の DiCoDe 構成をリリースし、モデル サイズが 100M から 3B に増加するにつれてパフォーマンスが一貫して向上していることを観察しました。
DiCoDe の学術界での探求は、AR 言語モデルを使用したスケーラブルなビデオ モデリングに向けた有望な最初のステップであり、より大規模で強力なビデオ生成モデルの開発への道を開くものであると私たちは信じています。
要約(オリジナル)
Videos are inherently temporal sequences by their very nature. In this work, we explore the potential of modeling videos in a chronological and scalable manner with autoregressive (AR) language models, inspired by their success in natural language processing. We introduce DiCoDe, a novel approach that leverages Diffusion-Compressed Deep Tokens to generate videos with a language model in an autoregressive manner. Unlike existing methods that employ low-level representations with limited compression rates, DiCoDe utilizes deep tokens with a considerable compression rate (a 1000x reduction in token count). This significant compression is made possible by a tokenizer trained through leveraging the prior knowledge of video diffusion models. Deep tokens enable DiCoDe to employ vanilla AR language models for video generation, akin to translating one visual ‘language’ into another. By treating videos as temporal sequences, DiCoDe fully harnesses the capabilities of language models for autoregressive generation. DiCoDe is scalable using readily available AR architectures, and is capable of generating videos ranging from a few seconds to one minute using only 4 A100 GPUs for training. We evaluate DiCoDe both quantitatively and qualitatively, demonstrating that it performs comparably to existing methods in terms of quality while ensuring efficient training. To showcase its scalability, we release a series of DiCoDe configurations with varying parameter sizes and observe a consistent improvement in performance as the model size increases from 100M to 3B. We believe that DiCoDe’s exploration in academia represents a promising initial step toward scalable video modeling with AR language models, paving the way for the development of larger and more powerful video generation models.
arxiv情報
著者 | Yizhuo Li,Yuying Ge,Yixiao Ge,Ping Luo,Ying Shan |
発行日 | 2024-12-05 18:57:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google