ART$\boldsymbol{\cdot}$V: Auto-Regressive Text-to-Video Generation with Diffusion Models

要約

拡散モデルを使用した自動回帰ビデオ生成の効率的なフレームワークである ART$\boldsymbol{\cdot}$V を紹介します。
ビデオ全体をワンショットで生成する既存の方法とは異なり、ART$\boldsymbol{\cdot}$V は、前のフレームを条件として、一度に 1 つのフレームを生成します。
このフレームワークには 3 つの明確な利点があります。
まず、隣接するフレーム間の単純な連続動作のみを学習するため、膨大なトレーニング データを必要とする複雑な長距離動作のモデリングを回避できます。
第 2 に、最小限のネットワーク変更のみを行うことで、事前トレーニングされた画像拡散モデルの忠実度の高い生成機能が維持されます。
第三に、テキスト、画像、またはそれらの組み合わせなどのさまざまなプロンプトに基づいて任意の長さのビデオを生成できるため、非常に多用途かつ柔軟になります。
AR モデルにおける一般的なドリフトの問題に対処するために、ドリフトの原因となる一貫性のない外観が生成されるリスクを軽減するために、ネットワーク予測ではなく参照画像からどの情報を引き出せるかを暗黙的に学習するマスク拡散モデルを提案します。
さらに、通常は最小限のノイズが含まれる初期フレームで調整することにより、生成のコヒーレンスをさらに強化します。
これは、長いビデオを生成する場合に特に便利です。
ART$\boldsymbol{\cdot}$V は、4 つの GPU でわずか 2 週間トレーニングしただけで、自然な動き、豊かなディテール、高レベルの美的品質を備えたビデオを生成できるようになりました。
さらに、複数のテキスト プロンプトから長いビデオを作成するなど、さまざまな魅力的なアプリケーションが可能になります。

要約(オリジナル)

We present ART$\boldsymbol{\cdot}$V, an efficient framework for auto-regressive video generation with diffusion models. Unlike existing methods that generate entire videos in one-shot, ART$\boldsymbol{\cdot}$V generates a single frame at a time, conditioned on the previous ones. The framework offers three distinct advantages. First, it only learns simple continual motions between adjacent frames, therefore avoiding modeling complex long-range motions that require huge training data. Second, it preserves the high-fidelity generation ability of the pre-trained image diffusion models by making only minimal network modifications. Third, it can generate arbitrarily long videos conditioned on a variety of prompts such as text, image or their combinations, making it highly versatile and flexible. To combat the common drifting issue in AR models, we propose masked diffusion model which implicitly learns which information can be drawn from reference images rather than network predictions, in order to reduce the risk of generating inconsistent appearances that cause drifting. Moreover, we further enhance generation coherence by conditioning it on the initial frame, which typically contains minimal noise. This is particularly useful for long video generation. When trained for only two weeks on four GPUs, ART$\boldsymbol{\cdot}$V already can generate videos with natural motions, rich details and a high level of aesthetic quality. Besides, it enables various appealing applications, e.g., composing a long video from multiple text prompts.

arxiv情報

著者 Wenming Weng,Ruoyu Feng,Yanhui Wang,Qi Dai,Chunyu Wang,Dacheng Yin,Zhiyuan Zhao,Kai Qiu,Jianmin Bao,Yuhui Yuan,Chong Luo,Yueyi Zhang,Zhiwei Xiong
発行日 2023-11-30 18:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク