要約
テキストからビデオへの生成は、普及モデルを通じて目覚ましい進歩を遂げました。
ただし、マルチコンセプト ビデオ カスタマイズ (MCVC) は依然として大きな課題です。
このタスクでは、2 つの重要な課題を特定します。1) 既存のカスタマイズ方法を直接採用すると、複数の概念を同時に処理するときに必然的に属性が混在するアイデンティティ分離の問題、2) トレーニングに不可欠な高品質のビデオとエンティティのペアの不足
このようなモデルは、さまざまな概念をうまく表現し、分離します。
これらの課題に対処するために、カスタマイズされたビデオでコンセプトの忠実性を維持しながら、アイデンティティの分離という重要な問題に効果的に取り組む革新的なフレームワークである ConceptMaster を導入します。
具体的には、スタンドアロン方式で拡散モデルに注入される分離されたマルチコンセプトの埋め込みを学習する新しい戦略を導入します。これにより、非常に類似したビジュアルコンセプトであっても、複数のアイデンティティを持つカスタマイズされたビデオの品質が効果的に保証されます。
高品質の MCVC データの不足をさらに克服するために、当社はデータ構築パイプラインを慎重に確立し、さまざまなコンセプトにわたる正確なマルチコンセプトのビデオ エンティティ データの体系的な収集を可能にします。
包括的なベンチマークは、6 つの異なるコンセプト構成シナリオにわたるコンセプト忠実度、アイデンティティ デカップリング能力、ビデオ生成品質という 3 つの重要な側面からモデルの有効性を検証するように設計されています。
広範な実験により、ConceptMaster がこのタスクに関して以前のアプローチを大幅に上回り、複数のコンセプトにわたってパーソナライズされた意味的に正確なビデオを生成する道が開かれることが実証されました。
要約(オリジナル)
Text-to-video generation has made remarkable advancements through diffusion models. However, Multi-Concept Video Customization (MCVC) remains a significant challenge. We identify two key challenges in this task: 1) the identity decoupling problem, where directly adopting existing customization methods inevitably mix attributes when handling multiple concepts simultaneously, and 2) the scarcity of high-quality video-entity pairs, which is crucial for training such a model that represents and decouples various concepts well. To address these challenges, we introduce ConceptMaster, an innovative framework that effectively tackles the critical issues of identity decoupling while maintaining concept fidelity in customized videos. Specifically, we introduce a novel strategy of learning decoupled multi-concept embeddings that are injected into the diffusion models in a standalone manner, which effectively guarantees the quality of customized videos with multiple identities, even for highly similar visual concepts. To further overcome the scarcity of high-quality MCVC data, we carefully establish a data construction pipeline, which enables systematic collection of precise multi-concept video-entity data across diverse concepts. A comprehensive benchmark is designed to validate the effectiveness of our model from three critical dimensions: concept fidelity, identity decoupling ability, and video generation quality across six different concept composition scenarios. Extensive experiments demonstrate that our ConceptMaster significantly outperforms previous approaches for this task, paving the way for generating personalized and semantically accurate videos across multiple concepts.
arxiv情報
著者 | Yuzhou Huang,Ziyang Yuan,Quande Liu,Qiulin Wang,Xintao Wang,Ruimao Zhang,Pengfei Wan,Di Zhang,Kun Gai |
発行日 | 2025-01-08 18:59:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google