要約
テキストから画像への生成モデルは、多様で忠実なコンテンツを合成できますが、複数の作品にわたる主題のバリエーションは、長いコンテンツ生成のアプリケーションを制限します。
既存のアプローチでは、時間のかかるチューニング、すべての被験者の参照、または他の作品へのアクセスが必要です。
Contrastive Concept Instantiation(Cocoins)を導入して、複数の独立した作品にわたって一貫した被験者を効果的に合成します。
フレームワークは、生成モデルとマッピングネットワークで構成され、入力潜在コードを特定の概念のインスタンスに関連付けられた擬似ワードに変換します。
ユーザーは、同じ潜在コードで一貫した被験者を生成できます。
このような関連性を構築するために、プロンプトと潜在コードの組み合わせを区別するためにネットワークを訓練する対照的な学習アプローチを提案します。
単一の被験者を使用した人間の顔の広範な評価は、ココインがより高い柔軟性を維持しながら、既存の方法と同等に機能することを示しています。
また、複数の被験者やその他のオブジェクトカテゴリにココインを拡張する可能性も示しています。
要約(オリジナル)
While text-to-image generative models can synthesize diverse and faithful contents, subject variation across multiple creations limits the application in long content generation. Existing approaches require time-consuming tuning, references for all subjects, or access to other creations. We introduce Contrastive Concept Instantiation (CoCoIns) to effectively synthesize consistent subjects across multiple independent creations. The framework consists of a generative model and a mapping network, which transforms input latent codes into pseudo-words associated with certain instances of concepts. Users can generate consistent subjects with the same latent codes. To construct such associations, we propose a contrastive learning approach that trains the network to differentiate the combination of prompts and latent codes. Extensive evaluations of human faces with a single subject show that CoCoIns performs comparably to existing methods while maintaining higher flexibility. We also demonstrate the potential of extending CoCoIns to multiple subjects and other object categories.
arxiv情報
| 著者 | Lee Hsin-Ying,Kelvin C. K. Chan,Ming-Hsuan Yang |
| 発行日 | 2025-03-31 17:59:51+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google