要約
主題主導のテキストから画像への生成は、テキストの説明に基づいて特定の主題のカスタマイズされた画像を生成することを目的としており、ますます注目を集めています。
既存の手法は主に、事前学習済みの生成モデルを微調整することに頼っており、アイデンティティに関連する情報 (例: 少年) とアイデンティティに無関係な情報 (例: 背景や少年のポーズ) が潜在埋め込み空間で絡み合っています。
ただし、高度に絡み合った潜在埋め込みは、次のように主題主導のテキストから画像への生成の失敗につながる可能性があります: (i) 絡み合った埋め込みに隠されたアイデンティティに無関係な情報が生成プロセスを支配し、生成された画像が重度になる可能性があります。
与えられたテキストの説明を無視しながら、無関係な情報に依存する。
(ii) エンタングルされた埋め込みに含まれるアイデンティティ関連情報は適切に保存できず、その結果、生成された画像内の被写体のアイデンティティが変化します。
この問題に取り組むために、私たちは、主題駆動型のテキストから画像への生成のための、アイデンティティを保持したもつれを解くチューニング フレームワークである DisenBooth を提案します。
具体的には、DisenBooth はノイズ除去プロセスで事前トレーニングされた拡散モデルを微調整します。
各画像のノイズを除去するためにエンタングルされたエンベディングを利用する以前の研究とは異なり、DisenBooth は代わりに、デエンタングルされたエンベディングを利用して、それぞれ被写体のアイデンティティを保存し、アイデンティティに無関係な情報をキャプチャします。
さらに、もつれを解くために、新しい弱いノイズ除去とコントラスト埋め込み補助調整目標を設計します。
広範な実験により、私たちが提案する DisenBooth フレームワークが、アイデンティティを保持した埋め込みを使用した主題主導のテキストから画像への生成のベースライン モデルよりも優れていることが示されています。
さらに、ID を保持した埋め込みと ID に関係のない埋め込みを組み合わせることで、DisenBooth は生成の柔軟性と制御性を向上させます。
要約(オリジナル)
Subject-driven text-to-image generation aims to generate customized images of the given subject based on the text descriptions, which has drawn increasing attention. Existing methods mainly resort to finetuning a pretrained generative model, where the identity-relevant information (e.g., the boy) and the identity-irrelevant information (e.g., the background or the pose of the boy) are entangled in the latent embedding space. However, the highly entangled latent embedding may lead to the failure of subject-driven text-to-image generation as follows: (i) the identity-irrelevant information hidden in the entangled embedding may dominate the generation process, resulting in the generated images heavily dependent on the irrelevant information while ignoring the given text descriptions; (ii) the identity-relevant information carried in the entangled embedding can not be appropriately preserved, resulting in identity change of the subject in the generated images. To tackle the problems, we propose DisenBooth, an identity-preserving disentangled tuning framework for subject-driven text-to-image generation. Specifically, DisenBooth finetunes the pretrained diffusion model in the denoising process. Different from previous works that utilize an entangled embedding to denoise each image, DisenBooth instead utilizes disentangled embeddings to respectively preserve the subject identity and capture the identity-irrelevant information. We further design the novel weak denoising and contrastive embedding auxiliary tuning objectives to achieve the disentanglement. Extensive experiments show that our proposed DisenBooth framework outperforms baseline models for subject-driven text-to-image generation with the identity-preserved embedding. Additionally, by combining the identity-preserved embedding and identity-irrelevant embedding, DisenBooth demonstrates more generation flexibility and controllability.
arxiv情報
著者 | Hong Chen,Yipeng Zhang,Simin Wu,Xin Wang,Xuguang Duan,Yuwei Zhou,Wenwu Zhu |
発行日 | 2024-02-26 03:53:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google