AttnDreamBooth: Towards Text-Aligned Personalized Text-to-Image Generation

要約

テキストから画像へのモデルの最近の進歩により、柔軟なテキスト制御を使用して、ユーザーが提供したコンセプトの高品質でパーソナライズされた画像合成が可能になりました。
この研究では、テキストから画像へのパーソナライゼーションにおける 2 つの主要な技術、Textual Inversion と DreamBooth の限界を分析します。
学習した概念を新しいプロンプトに統合する場合、Textual Inversion は概念を過剰に適合させる傾向がありますが、DreamBooth はそれを見落とすことがよくあります。
これらの問題は、概念に対する埋め込み調整の誤った学習が原因であると考えられます。
AttnDreamBooth を紹介します。これは、埋め込みアライメント、アテンション マップ、および被験者のアイデンティティをさまざまなトレーニング ステージで個別に学習することで、これらの問題に対処する新しいアプローチです。
また、アテンション マップの学習を強化するために、クロス アテンション マップ正則化項も導入します。
私たちの方法は、ベースライン方法と比較して、アイデンティティの保持とテキストの配置が大幅に向上していることを示しています。

要約(オリジナル)

Recent advances in text-to-image models have enabled high-quality personalized image synthesis of user-provided concepts with flexible textual control. In this work, we analyze the limitations of two primary techniques in text-to-image personalization: Textual Inversion and DreamBooth. When integrating the learned concept into new prompts, Textual Inversion tends to overfit the concept, while DreamBooth often overlooks it. We attribute these issues to the incorrect learning of the embedding alignment for the concept. We introduce AttnDreamBooth, a novel approach that addresses these issues by separately learning the embedding alignment, the attention map, and the subject identity in different training stages. We also introduce a cross-attention map regularization term to enhance the learning of the attention map. Our method demonstrates significant improvements in identity preservation and text alignment compared to the baseline methods.

arxiv情報

著者 Lianyu Pang,Jian Yin,Baoquan Zhao,Feize Wu,Fu Lee Wang,Qing Li,Xudong Mao
発行日 2024-06-07 15:12:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク