Gen4Gen: Generative Data Pipeline for Generative Multi-Concept Composition

要約

最近のテキストから画像への拡散モデルは、トレーニング用のほんの数例を使用して、新しいパーソナライズされたコンセプト (自分のペットや特定のアイテムなど) を含む画像を学習および合成できます。
この文書では、テキストから画像への拡散モデルのパーソナライズという領域内で相互に関連する 2 つの問題に取り組みます。
まず、現在のパーソナライゼーション技術は複数の概念に確実に拡張できません。これは、複雑なシーンと事前トレーニング データセット (LAION など) 内の単純なテキスト記述の間の不一致が原因であると私たちは仮説を立てています。
第 2 に、複数のパーソナライズされた概念が含まれる画像の場合、パーソナライズされた概念の類似度だけでなく、すべての概念が画像内に存在するかどうか、および画像がテキスト全体の説明を正確に反映しているかどうかについてもパフォーマンスを評価する総合的な指標が不足しています。
これらの問題に対処するために、生成モデルを利用してパーソナライズされたコンセプトをテキストの説明とともに複雑な構成に組み合わせる半自動データセット作成パイプラインである Gen4Gen を導入します。
これを使用して、マルチコンセプトのパーソナライゼーションのタスクのベンチマークに使用できる MyCanvas というデータセットを作成します。
さらに、マルチコンセプトのパーソナライズされたテキストから画像への拡散手法のパフォーマンスをより適切に定量化するために、2 つのスコア (CP-CLIP と TI-CLIP) で構成される包括的な指標を設計します。
私たちは、将来の研究者が MyCanvas 上で評価できるように、経験に基づいたプロンプト戦略を備えた Custom Diffusion の上に構築されたシンプルなベースラインを提供します。
データ品質とプロンプト戦略を改善することで、モデル アーキテクチャやトレーニング アルゴリズムに変更を加えることなく、マルチコンセプトのパーソナライズされた画像生成の品質を大幅に向上できることを示します。

要約(オリジナル)

Recent text-to-image diffusion models are able to learn and synthesize images containing novel, personalized concepts (e.g., their own pets or specific items) with just a few examples for training. This paper tackles two interconnected issues within this realm of personalizing text-to-image diffusion models. First, current personalization techniques fail to reliably extend to multiple concepts — we hypothesize this to be due to the mismatch between complex scenes and simple text descriptions in the pre-training dataset (e.g., LAION). Second, given an image containing multiple personalized concepts, there lacks a holistic metric that evaluates performance on not just the degree of resemblance of personalized concepts, but also whether all concepts are present in the image and whether the image accurately reflects the overall text description. To address these issues, we introduce Gen4Gen, a semi-automated dataset creation pipeline utilizing generative models to combine personalized concepts into complex compositions along with text-descriptions. Using this, we create a dataset called MyCanvas, that can be used to benchmark the task of multi-concept personalization. In addition, we design a comprehensive metric comprising two scores (CP-CLIP and TI-CLIP) for better quantifying the performance of multi-concept, personalized text-to-image diffusion methods. We provide a simple baseline built on top of Custom Diffusion with empirical prompting strategies for future researchers to evaluate on MyCanvas. We show that by improving data quality and prompting strategies, we can significantly increase multi-concept personalized image generation quality, without requiring any modifications to model architecture or training algorithms.

arxiv情報

著者 Chun-Hsiao Yeh,Ta-Ying Cheng,He-Yen Hsieh,Chuan-En Lin,Yi Ma,Andrew Markham,Niki Trigoni,H. T. Kung,Yubei Chen
発行日 2024-02-23 18:55:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク