VideoTetris: Towards Compositional Text-to-Video Generation

要約

拡散モデルは、テキストからビデオ (T2V) の生成において大きな成功を収めています。
ただし、複数のオブジェクトやオブジェクト数の動的な変更を伴う複雑な (長い) ビデオ生成シナリオを処理する場合、既存の方法では課題に直面する可能性があります。
これらの制限に対処するために、構成的な T2V 生成を可能にする新しいフレームワークである VideoTetr​​is を提案します。
具体的には、ノイズ除去ネットワークのアテンションマップを空間的および時間的に操作および構成することにより、複雑なテキストの意味論に正確に従うための時空間構成拡散を提案します。
さらに、自動回帰ビデオ生成の一貫性を向上させるための新しい参照フレーム アテンション メカニズムを備えた、モーション ダイナミクスに関するトレーニング データを強化し、理解を促進するための強化されたビデオ データ前処理を提案します。
広範な実験により、当社の VideoTetr​​is が組成的 T2V 生成において印象的な定性的および定量的結果を達成することが実証されました。
コードはhttps://github.com/YangLing0818/VideoTetr​​isから入手できます。

要約(オリジナル)

Diffusion models have demonstrated great success in text-to-video (T2V) generation. However, existing methods may face challenges when handling complex (long) video generation scenarios that involve multiple objects or dynamic changes in object numbers. To address these limitations, we propose VideoTetris, a novel framework that enables compositional T2V generation. Specifically, we propose spatio-temporal compositional diffusion to precisely follow complex textual semantics by manipulating and composing the attention maps of denoising networks spatially and temporally. Moreover, we propose an enhanced video data preprocessing to enhance the training data regarding motion dynamics and prompt understanding, equipped with a new reference frame attention mechanism to improve the consistency of auto-regressive video generation. Extensive experiments demonstrate that our VideoTetris achieves impressive qualitative and quantitative results in compositional T2V generation. Code is available at: https://github.com/YangLing0818/VideoTetris

arxiv情報

著者 Ye Tian,Ling Yang,Haotian Yang,Yuan Gao,Yufan Deng,Jingmin Chen,Xintao Wang,Zhaochen Yu,Xin Tao,Pengfei Wan,Di Zhang,Bin Cui
発行日 2024-06-06 17:25:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク