FastComposer: Tuning-Free Multi-Subject Image Generation with Localized Attention

要約

拡散モデルは、テキストから画像への生成、特にパーソナライズされた画像の主題主導の生成に優れています。
ただし、既存の方法は、主題固有の微調整のため非効率的であり、計算量が多く、効率的な展開が妨げられます。
さらに、既存の方法は、主題間の特徴を混合することが多いため、複数の主題の生成に苦労しています。
微調整することなく、効率的でパーソナライズされた複数の主題のテキストから画像への生成を可能にする FastComposer を紹介します。
FastComposer は、画像エンコーダによって抽出された主題の埋め込みを使用して拡散モデルの一般的なテキスト条件付けを強化し、前方パスのみで主題の画像とテキスト命令に基づいてパーソナライズされた画像を生成できるようにします。
複数の被写体の生成における同一性ブレンディングの問題に対処するために、FastComposer はトレーニング中に相互注意の位置特定の監視を提案し、ターゲット画像内の正しい領域に位置特定された参照被写体の注意を強制します。
被験者の埋め込みを単純に条件付けすると、被験者の過剰適合が発生します。
FastComposer は、被写体主導の画像生成において同一性と編集可能性の両方を維持するために、ノイズ除去ステップで被写体の遅延調整を提案します。
FastComposer は、さまざまなスタイル、アクション、コンテキストを持つ複数の目に見えない個人の画像を生成します。
微調整ベースの方法と比較して 300$\times$-2500$\times$ の高速化を実現し、新しいサブジェクト用に追加のストレージを必要としません。
FastComposer は、効率的でパーソナライズされた高品質の複数の被写体の画像作成への道を開きます。
コード、モデル、データセットは https://github.com/mit-han-lab/fastcomposer で入手できます。

要約(オリジナル)

Diffusion models excel at text-to-image generation, especially in subject-driven generation for personalized images. However, existing methods are inefficient due to the subject-specific fine-tuning, which is computationally intensive and hampers efficient deployment. Moreover, existing methods struggle with multi-subject generation as they often blend features among subjects. We present FastComposer which enables efficient, personalized, multi-subject text-to-image generation without fine-tuning. FastComposer uses subject embeddings extracted by an image encoder to augment the generic text conditioning in diffusion models, enabling personalized image generation based on subject images and textual instructions with only forward passes. To address the identity blending problem in the multi-subject generation, FastComposer proposes cross-attention localization supervision during training, enforcing the attention of reference subjects localized to the correct regions in the target images. Naively conditioning on subject embeddings results in subject overfitting. FastComposer proposes delayed subject conditioning in the denoising step to maintain both identity and editability in subject-driven image generation. FastComposer generates images of multiple unseen individuals with different styles, actions, and contexts. It achieves 300$\times$-2500$\times$ speedup compared to fine-tuning-based methods and requires zero extra storage for new subjects. FastComposer paves the way for efficient, personalized, and high-quality multi-subject image creation. Code, model, and dataset are available at https://github.com/mit-han-lab/fastcomposer.

arxiv情報

著者 Guangxuan Xiao,Tianwei Yin,William T. Freeman,Frédo Durand,Song Han
発行日 2023-05-17 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク