Factorized-Dreamer: Training A High-Quality Video Generator with Limited and Low-Quality Data

要約

Text-to-Video (T2V) 生成は、ビデオの生成、編集、強化、翻訳などに幅広く応用できるため、大きな注目を集めています。
ただし、現実世界には多様で複雑な動きが存在するため、高品質 (HQ) ビデオ合成は非常に困難です。
既存の作品のほとんどは、コミュニティがアクセスできない大規模な HQ ビデオを収集することで、この問題に対処するのに苦労しています。
この研究では、公開されている限定された低品質 (LQ) データがあれば、再キャプションや微調整を行わずに HQ ビデオ ジェネレーターをトレーニングするのに十分であることを示します。
T2V 生成プロセス全体を 2 つのステップに分解します。1 つは高度に説明的なキャプションを条件とした画像の生成、もう 1 つは生成された画像と動きの詳細の簡潔なキャプションを条件としたビデオの合成です。
具体的には、テキストと画像の埋め込みを結合するアダプター、ピクセル レベルの画像情報をキャプチャするピクセル認識クロス アテンション モジュール、
モーションの説明をより深く理解するための T5 テキスト エンコーダーと、オプティカル フローを監視するための PredictNet。
さらに、ビデオ生成の品質と安定性を確保する上で重要な役割を果たすノイズ スケジュールについても説明します。
私たちのモデルは詳細なキャプションや HQ ビデオの要件を下げ、WebVid-10M などのノイズが多く短いキャプションを含む限られた LQ データセットで直接トレーニングできるため、大規模な HQ ビデオとテキストのペアを収集するコストが大幅に軽減されます。
さまざまな T2V および画像からビデオへの生成タスクにおける広範な実験により、私たちが提案する Factorized-Dreamer の有効性が実証されています。
ソース コードは \url{https://github.com/yangxy/Factorized-Dreamer/} で入手できます。

要約(オリジナル)

Text-to-video (T2V) generation has gained significant attention due to its wide applications to video generation, editing, enhancement and translation, \etc. However, high-quality (HQ) video synthesis is extremely challenging because of the diverse and complex motions existed in real world. Most existing works struggle to address this problem by collecting large-scale HQ videos, which are inaccessible to the community. In this work, we show that publicly available limited and low-quality (LQ) data are sufficient to train a HQ video generator without recaptioning or finetuning. We factorize the whole T2V generation process into two steps: generating an image conditioned on a highly descriptive caption, and synthesizing the video conditioned on the generated image and a concise caption of motion details. Specifically, we present \emph{Factorized-Dreamer}, a factorized spatiotemporal framework with several critical designs for T2V generation, including an adapter to combine text and image embeddings, a pixel-aware cross attention module to capture pixel-level image information, a T5 text encoder to better understand motion description, and a PredictNet to supervise optical flows. We further present a noise schedule, which plays a key role in ensuring the quality and stability of video generation. Our model lowers the requirements in detailed captions and HQ videos, and can be directly trained on limited LQ datasets with noisy and brief captions such as WebVid-10M, largely alleviating the cost to collect large-scale HQ video-text pairs. Extensive experiments in a variety of T2V and image-to-video generation tasks demonstrate the effectiveness of our proposed Factorized-Dreamer. Our source codes are available at \url{https://github.com/yangxy/Factorized-Dreamer/}.

arxiv情報

著者 Tao Yang,Yangming Shi,Yunwen Huang,Feng Chen,Yin Zheng,Lei Zhang
発行日 2024-08-19 16:08:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク