DisenStudio: Customized Multi-subject Text-to-Video Generation with Disentangled Spatial Control

要約

最近、ビデオ内でカスタマイズされたコンテンツを生成することがますます注目を集めています。
しかし、既存の作品は主に、単一の主題に対してカスタマイズされたテキストからビデオへの生成に焦点を当てており、ビデオに複数の主題が含まれることが予想される場合、主題の欠落と属性バインディングの問題に悩まされています。
さらに、既存のモデルは、対応する主体に目的のアクションを割り当てるのに苦労し(アクション結合問題)、満足のいく複数主体の生成パフォーマンスを達成できません。
この問題に取り組むために、この論文では、各主題にいくつかの画像を与えて、カスタマイズされた複数の主題に対するテキストガイド付きビデオを生成できる新しいフレームワークである DisenStudio を提案します。
具体的には、DisenStudio は、事前トレーニングされた拡散ベースのテキストからビデオへのモデルを、私たちが提案する空間分解クロスアテンション メカニズムで強化し、各主題を目的のアクションに関連付けます。
次に、提案されたモーション保存のもつれ解除微調整を使用してモデルを複数の被験者向けにカスタマイズします。これには、複数被験者の共起チューニング、マスクされた単一被験者のチューニング、および複数被験者のモーション保存チューニングの 3 つの調整戦略が含まれます。
最初の 2 つの戦略は、被写体の出現を保証し、その視覚的属性を保持します。3 番目の戦略は、静止画像を微調整するときにモデルが時間的な動きを生成する能力を維持するのに役立ちます。
私たちは、提案した DisenStudio がさまざまな指標において既存の方法を大幅に上回ることを実証するために広範な実験を実施しました。
さらに、DisenStudio がさまざまな制御可能な生成アプリケーションの強力なツールとして使用できることを示します。

要約(オリジナル)

Generating customized content in videos has received increasing attention recently. However, existing works primarily focus on customized text-to-video generation for single subject, suffering from subject-missing and attribute-binding problems when the video is expected to contain multiple subjects. Furthermore, existing models struggle to assign the desired actions to the corresponding subjects (action-binding problem), failing to achieve satisfactory multi-subject generation performance. To tackle the problems, in this paper, we propose DisenStudio, a novel framework that can generate text-guided videos for customized multiple subjects, given few images for each subject. Specifically, DisenStudio enhances a pretrained diffusion-based text-to-video model with our proposed spatial-disentangled cross-attention mechanism to associate each subject with the desired action. Then the model is customized for the multiple subjects with the proposed motion-preserved disentangled finetuning, which involves three tuning strategies: multi-subject co-occurrence tuning, masked single-subject tuning, and multi-subject motion-preserved tuning. The first two strategies guarantee the subject occurrence and preserve their visual attributes, and the third strategy helps the model maintain the temporal motion-generation ability when finetuning on static images. We conduct extensive experiments to demonstrate our proposed DisenStudio significantly outperforms existing methods in various metrics. Additionally, we show that DisenStudio can be used as a powerful tool for various controllable generation applications.

arxiv情報

著者 Hong Chen,Xin Wang,Yipeng Zhang,Yuwei Zhou,Zeyang Zhang,Siao Tang,Wenwu Zhu
発行日 2024-05-21 13:44:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク