EZIGen: Enhancing zero-shot subject-driven image generation with precise subject encoding and decoupled guidance

要約

ゼロショットの被写体主導の画像生成は、特定のサンプル画像から被写体を組み込んだ画像を生成することを目的としています。
課題は、テキスト プロンプトに合わせながら被験者のアイデンティティを維持することにあり、多くの場合、被験者の外観の特定の側面を変更する必要があります。
拡散モデルベースの手法が進歩したにもかかわらず、既存のアプローチでは、アイデンティティの保持とテキスト プロンプトの配置のバランスを取るのに依然として苦労しています。
この研究では、この問題について徹底的な調査を実施し、強力なバランスを維持しながら効果的なアイデンティティの保存を達成するための重要な洞察を明らかにしました。
私たちの主な発見には、(1) 対象の画像エンコーダの設計がアイデンティティの保存品質に大きく影響すること、(2) 初期レイアウトの生成がテキストの配置とアイデンティティの保存の両方にとって重要であることが含まれます。
これらの洞察に基づいて、我々は EZIGen と呼ばれる新しいアプローチを導入します。これは 2 つの主な戦略を採用しています。 事前トレーニングされた安定拡散モデルの UNet アーキテクチャに基づいて慎重に作成された被写体画像エンコーダー。
ガイダンスは段階的に行われ、初期画像レイアウトを繰り返し調整します。
これらの戦略を通じて、EZIGen は、統一されたモデルと 100 倍少ないトレーニング データを使用して、複数の被験者主導のベンチマークで最先端の結果を達成します。

要約(オリジナル)

Zero-shot subject-driven image generation aims to produce images that incorporate a subject from a given example image. The challenge lies in preserving the subject’s identity while aligning with the text prompt, which often requires modifying certain aspects of the subject’s appearance. Despite advancements in diffusion model based methods, existing approaches still struggle to balance identity preservation with text prompt alignment. In this study, we conducted an in-depth investigation into this issue and uncovered key insights for achieving effective identity preservation while maintaining a strong balance. Our key findings include: (1) the design of the subject image encoder significantly impacts identity preservation quality, and (2) generating an initial layout is crucial for both text alignment and identity preservation. Building on these insights, we introduce a new approach called EZIGen, which employs two main strategies: a carefully crafted subject image Encoder based on the UNet architecture of the pretrained Stable Diffusion model to ensure high-quality identity transfer, following a process that decouples the guidance stages and iteratively refines the initial image layout. Through these strategies, EZIGen achieves state-of-the-art results on multiple subject-driven benchmarks with a unified model and 100 times less training data.

arxiv情報

著者 Zicheng Duan,Yuxuan Ding,Chenhui Gou,Ziqin Zhou,Ethan Smith,Lingqiao Liu
発行日 2024-09-12 14:44:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク