DisenBooth: Disentangled Parameter-Efficient Tuning for Subject-Driven Text-to-Image Generation

要約

タイトル:DisenBooth:主題駆動テキストから画像の生成のための分解可能なパラメータ効率のチューニング
要約:

– 小さな特定の主題に関する画像セットが与えられた場合、テキストからカスタマイズされた画像を生成する主題駆動テキストから画像の生成は、最近コミュニティで注目されています。
– 現在の主題駆動テキストから画像の生成方法は、主に事前学習された大規模テキストから画像の生成モデルを微調整することに基づいています。
– しかしながら、これらの微調整方法は、主題の画像を主題と関係のない情報と非常に密接に結びつけた埋め込みにマッピングするため、生成された画像とテキストの記述の不一致や主題の同一性の変化を引き起こす可能性があります。
– 問題を解決するために、主題駆動テキストから画像の生成のための分解可能なパラメータ効率のチューニングフレームワークであるDisenBoothを提案しています。
– DisenBoothは、埋め込みを同時に主題の同一性を保持する部分とテキストの記述に適合する部分に分解し、新しい画像を生成することを可能にします。
– 具体的には、DisenBoothは、事前学習された拡散モデルに基づいており、各画像のノイズ除去に共有された同一性の埋め込みと画像固有の同一性-非同一性の埋め込みを共同で利用しています。
– 2つの埋め込みを分解可能にするために、2つの補助目的が提案されています。
– さらに、フィネチューニング効率を向上させるために、パラメータ効率のフィネチューニング戦略が採用されています。
– 広範な実験により、DisenBoothはよく分解された同一性関連と同一性非関連埋め込みを忠実に学習できることが示されています。
– 共有同一性の埋め込みを持つDisenBoothは、優れた主題駆動テキストから画像の生成能力を示します。
– さらに、DisenBoothは、分解された埋め込みの異なる組み合わせでより柔軟かつ制御可能なフレームワークを提供します。

要約(オリジナル)

Given a small set of images of a specific subject, subject-driven text-to-image generation aims to generate customized images of the subject according to new text descriptions, which has attracted increasing attention in the community recently. Current subject-driven text-to-image generation methods are mainly based on finetuning a pretrained large-scale text-to-image generation model. However, these finetuning methods map the images of the subject into an embedding highly entangled with subject-identity-unrelated information, which may result in the inconsistency between the generated images and the text descriptions and the changes in the subject identity. To tackle the problem, we propose DisenBooth, a disentangled parameter-efficient tuning framework for subject-driven text-to-image generation. DisenBooth enables generating new images that simultaneously preserve the subject identity and conform to the text descriptions, by disentangling the embedding into an identity-related and an identity-unrelated part. Specifically, DisenBooth is based on the pretrained diffusion models and conducts finetuning in the diffusion denoising process, where a shared identity embedding and an image-specific identity-unrelated embedding are utilized jointly for denoising each image. To make the two embeddings disentangled, two auxiliary objectives are proposed. Additionally, to improve the finetuning efficiency, a parameter-efficient finetuning strategy is adopted. Extensive experiments show that our DisenBooth can faithfully learn well-disentangled identity-related and identity-unrelated embeddings. With the shared identity embedding, DisenBooth demonstrates superior subject-driven text-to-image generation ability. Additionally, DisenBooth provides a more flexible and controllable framework with different combinations of the disentangled embeddings.

arxiv情報

著者 Hong Chen,Yipeng Zhang,Xin Wang,Xuguang Duan,Yuwei Zhou,Wenwu Zhu
発行日 2023-05-05 09:08:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク