MasterWeaver: Taming Editability and Identity for Personalized Text-to-Image Generation

要約

テキストから画像への (T2I) 拡散モデルは、パーソナライズされたテキストから画像への生成において大きな成功を収めています。これは、参照画像によって示される人間のアイデンティティを持つ新しい画像を生成することを目的としています。
いくつかの調整不要の方法によってアイデンティティの忠実性が期待できるにもかかわらず、それらは通常、過剰適合の問題に悩まされます。
学習されたアイデンティティは無関係な情報と絡み合う傾向があり、その結果、特に顔のテキストの制御性が不満足になります。
この研究では、忠実なアイデンティティ忠実度と柔軟な編集可能性の両方を備えたパーソナライズされた画像を生成するように設計された、テスト時のチューニング不要のメソッドである MasterWeaver を紹介します。
具体的には、MasterWeaver はエンコーダーを採用してアイデンティティ特徴を抽出し、追加で導入されたクロスアテンションを通じて画像生成を制御します。
アイデンティティの忠実度を維持しながら編集可能性を向上させるために、マスターウィーバーの編集方向を元の T2I モデルの編集方向と一致させるトレーニングの編集方向の損失を提案します。
さらに、顔拡張データセットが構築され、もつれのないアイデンティティ学習が容易になり、編集可能性がさらに向上します。
広範な実験により、当社の MasterWeaver は忠実なアイデンティティを備えたパーソナライズされた画像を生成できるだけでなく、テキストの制御性においても優れていることが実証されました。
私たちのコードは https://github.com/csyxwei/MasterWeaver で公開されます。

要約(オリジナル)

Text-to-image (T2I) diffusion models have shown significant success in personalized text-to-image generation, which aims to generate novel images with human identities indicated by the reference images. Despite promising identity fidelity has been achieved by several tuning-free methods, they usually suffer from overfitting issues. The learned identity tends to entangle with irrelevant information, resulting in unsatisfied text controllability, especially on faces. In this work, we present MasterWeaver, a test-time tuning-free method designed to generate personalized images with both faithful identity fidelity and flexible editability. Specifically, MasterWeaver adopts an encoder to extract identity features and steers the image generation through additional introduced cross attention. To improve editability while maintaining identity fidelity, we propose an editing direction loss for training, which aligns the editing directions of our MasterWeaver with those of the original T2I model. Additionally, a face-augmented dataset is constructed to facilitate disentangled identity learning, and further improve the editability. Extensive experiments demonstrate that our MasterWeaver can not only generate personalized images with faithful identity, but also exhibit superiority in text controllability. Our code will be publicly available at https://github.com/csyxwei/MasterWeaver.

arxiv情報

著者 Yuxiang Wei,Zhilong Ji,Jinfeng Bai,Hongzhi Zhang,Lei Zhang,Wangmeng Zuo
発行日 2024-05-10 12:43:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク