要約
テキストから画像への生成モデルのカスタマイズは大幅に進歩しましたが、複数のパーソナライズされたコンセプトを組み合わせた画像を生成することは依然として困難です。
この研究では、推論時にカスタマイズされたテキストから画像への拡散モデルを構成する方法である Concept Weaver を紹介します。
具体的には、この方法では、プロセスを 2 つのステップに分割します。入力プロンプトのセマンティクスに合わせたテンプレート イメージを作成し、次に概念融合戦略を使用してテンプレートをパーソナライズします。
融合戦略では、構造の詳細を保持しながら、ターゲット コンセプトの外観をテンプレート イメージに組み込みます。
結果は、私たちの方法が他のアプローチと比較してより高いアイデンティティ忠実度で複数のカスタムコンセプトを生成できることを示しています。
さらに、この方法は、3 つ以上の概念をシームレスに処理し、異なる主題間で外観を混合することなく、入力プロンプトの意味論的な意味に厳密に従うことが示されています。
要約(オリジナル)
While there has been significant progress in customizing text-to-image generation models, generating images that combine multiple personalized concepts remains challenging. In this work, we introduce Concept Weaver, a method for composing customized text-to-image diffusion models at inference time. Specifically, the method breaks the process into two steps: creating a template image aligned with the semantics of input prompts, and then personalizing the template using a concept fusion strategy. The fusion strategy incorporates the appearance of the target concepts into the template image while retaining its structural details. The results indicate that our method can generate multiple custom concepts with higher identity fidelity compared to alternative approaches. Furthermore, the method is shown to seamlessly handle more than two concepts and closely follow the semantic meaning of the input prompt without blending appearances across different subjects.
arxiv情報
著者 | Gihyun Kwon,Simon Jenni,Dingzeyu Li,Joon-Young Lee,Jong Chul Ye,Fabian Caba Heilbron |
発行日 | 2024-04-05 06:41:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google