DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation

要約

Sora のようなビデオ生成モデルは、マルチモーダル拡散トランス MM-DiT アーキテクチャにより目覚ましい進歩を遂げました。
ただし、現在のビデオ生成モデルは主に単一のプロンプトに焦点を当てており、現実世界の動的なシナリオをより適切に反映する複数の連続したプロンプトを含む一貫したシーンを生成するのに苦労しています。
いくつかの先駆的な作品ではマルチプロンプトビデオの生成を検討していますが、厳しいトレーニングデータ要件、弱いプロンプト追従、不自然な遷移などの重大な課題に直面しています。
これらの問題に対処するために、MM-DiT アーキテクチャ下でトレーニング不要のマルチプロンプトビデオ生成手法である DiTCtrl を初めて提案します。
私たちの重要なアイデアは、マルチプロンプトビデオ生成タスクを、スムーズなトランジションを備えた一時的なビデオ編集として捉えることです。
この目標を達成するために、まず MM-DiT のアテンション メカニズムを分析し、3D フル アテンションが UNet のような拡散モデルのクロス/セルフ アテンション ブロックと同様に動作することを発見し、さまざまなプロンプトにわたってマスクに基づく正確なセマンティック制御が可能になることを発見しました。
マルチプロンプトビデオ生成のための注意共有機能を備えています。
当社の慎重な設計に基づいて、DiTCtrl によって生成されたビデオは、追加のトレーニングを行わなくても、複数の連続したプロンプトを与えられた場合にスムーズな移行と一貫したオブジェクトの動きを実現します。
さらに、マルチプロンプト生成のパフォーマンスを評価するために、マルチプロンプトビデオ生成用に特別に設計された新しいベンチマークである MPVBench も紹介します。
広範な実験により、私たちの方法が追加のトレーニングなしで最先端のパフォーマンスを達成できることが実証されています。

要約(オリジナル)

Sora-like video generation models have achieved remarkable progress with a Multi-Modal Diffusion Transformer MM-DiT architecture. However, the current video generation models predominantly focus on single-prompt, struggling to generate coherent scenes with multiple sequential prompts that better reflect real-world dynamic scenarios. While some pioneering works have explored multi-prompt video generation, they face significant challenges including strict training data requirements, weak prompt following, and unnatural transitions. To address these problems, we propose DiTCtrl, a training-free multi-prompt video generation method under MM-DiT architectures for the first time. Our key idea is to take the multi-prompt video generation task as temporal video editing with smooth transitions. To achieve this goal, we first analyze MM-DiT’s attention mechanism, finding that the 3D full attention behaves similarly to that of the cross/self-attention blocks in the UNet-like diffusion models, enabling mask-guided precise semantic control across different prompts with attention sharing for multi-prompt video generation. Based on our careful design, the video generated by DiTCtrl achieves smooth transitions and consistent object motion given multiple sequential prompts without additional training. Besides, we also present MPVBench, a new benchmark specially designed for multi-prompt video generation to evaluate the performance of multi-prompt generation. Extensive experiments demonstrate that our method achieves state-of-the-art performance without additional training.

arxiv情報

著者 Minghong Cai,Xiaodong Cun,Xiaoyu Li,Wenze Liu,Zhaoyang Zhang,Yong Zhang,Ying Shan,Xiangyu Yue
発行日 2024-12-24 18:51:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク