FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance

要約

モーション豊富で時間的に一貫したビデオを合成することは、特に長時間を扱う場合、人工知能における課題のままです。
既存のテキストからビデオ (T2V) モデルは一般に、テキスト コントロールに空間クロス アテンションを採用し、フレーム固有のテキスト ガイダンスなしで異なるフレーム生成を同等にガイドします。
したがって、プロンプトで伝えられる時間ロジックを理解し、一貫した動きを持つビデオを生成するモデルの能力は制限されています。
この制限に対処するために、適切に設計されたクロスフレーム テキスト ガイダンス モジュール (CTGM) を使用して既存のテキスト コントロール メカニズムを改善する革新的なビデオ ジェネレーターである FancyVideo を紹介します。
具体的には、CTGM には、クロスアテンションの開始、中間、終了にそれぞれ時間情報インジェクター (TII)、時間アフィニティー リファイナー (TAR)、および時間特徴ブースター (TFB) が組み込まれており、フレーム固有のテキスト ガイダンスを実現します。
まず、TII は潜在特徴からのフレーム固有の情報をテキスト条件に注入し、それによってフレーム間のテキスト条件を取得します。
次に、TAR は、時間次元に沿って、クロスフレームのテキスト条件と潜在的な特徴の間の相関行列を洗練します。
最後に、TFB は潜在特徴の時間的一貫性を高めます。
定量的評価と定性的評価の両方を含む広範な実験により、FancyVideo の有効性が実証されています。
私たちのアプローチは、EvalCrafter ベンチマークで最先端の T2V 生成結果を達成し、動的で一貫性のあるビデオの合成を容易にします。
ビデオ ショーの結果は https://fancyvideo.github.io/ で入手でき、コードとモデルの重みは公開される予定です。

要約(オリジナル)

Synthesizing motion-rich and temporally consistent videos remains a challenge in artificial intelligence, especially when dealing with extended durations. Existing text-to-video (T2V) models commonly employ spatial cross-attention for text control, equivalently guiding different frame generations without frame-specific textual guidance. Thus, the model’s capacity to comprehend the temporal logic conveyed in prompts and generate videos with coherent motion is restricted. To tackle this limitation, we introduce FancyVideo, an innovative video generator that improves the existing text-control mechanism with the well-designed Cross-frame Textual Guidance Module (CTGM). Specifically, CTGM incorporates the Temporal Information Injector (TII), Temporal Affinity Refiner (TAR), and Temporal Feature Booster (TFB) at the beginning, middle, and end of cross-attention, respectively, to achieve frame-specific textual guidance. Firstly, TII injects frame-specific information from latent features into text conditions, thereby obtaining cross-frame textual conditions. Then, TAR refines the correlation matrix between cross-frame textual conditions and latent features along the time dimension. Lastly, TFB boosts the temporal consistency of latent features. Extensive experiments comprising both quantitative and qualitative evaluations demonstrate the effectiveness of FancyVideo. Our approach achieves state-of-the-art T2V generation results on the EvalCrafter benchmark and facilitates the synthesis of dynamic and consistent videos. The video show results can be available at https://fancyvideo.github.io/, and we will make our code and model weights publicly available.

arxiv情報

著者 Jiasong Feng,Ao Ma,Jing Wang,Bo Cheng,Xiaodan Liang,Dawei Leng,Yuhui Yin
発行日 2024-08-15 14:47:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク