要約
ゼロショットの被写体主導の画像生成は、特定のサンプル画像から被写体を組み込んだ画像を生成することを目的としています。
課題は、テキスト プロンプトに合わせながら被験者のアイデンティティを維持することにあり、多くの場合、被験者の外観の特定の側面を変更する必要があります。
拡散モデルベースの手法が進歩したにもかかわらず、既存のアプローチでは、アイデンティティの保持とテキスト プロンプトの配置のバランスを取るのに依然として苦労しています。
この研究では、この問題について徹底的な調査を実施し、強力なバランスを維持しながら効果的なアイデンティティの保存を達成するための重要な洞察を明らかにしました。
私たちの主な発見には、(1) 主題画像エンコーダの設計がアイデンティティ保存の品質に大きく影響すること、(2) テキストと主題のガイダンスを分離することが、テキストの位置合わせとアイデンティティ保存の両方にとって重要であることが含まれます。
これらの洞察に基づいて、我々は EZIGen と呼ばれる新しいアプローチを導入します。これは 2 つの主な戦略を採用しています。 安定拡散モデルの事前学習済み UNet に基づいて注意深く作成された被写体画像エンコーダー。ガイダンスを分離するプロセスに従って、高品質の ID 転送を保証します。
段階的に調整し、初期画像レイアウトを繰り返し調整します。
これらの戦略を通じて、EZIGen は、統一されたモデルと 100 倍少ないトレーニング データを使用して、複数の被験者主導のベンチマークで最先端の結果を達成します。
デモ ページは https://zichengduan.github.io/pages/EZIGen/index.html から入手できます。
要約(オリジナル)
Zero-shot subject-driven image generation aims to produce images that incorporate a subject from a given example image. The challenge lies in preserving the subject’s identity while aligning with the text prompt which often requires modifying certain aspects of the subject’s appearance. Despite advancements in diffusion model based methods, existing approaches still struggle to balance identity preservation with text prompt alignment. In this study, we conducted an in-depth investigation into this issue and uncovered key insights for achieving effective identity preservation while maintaining a strong balance. Our key findings include: (1) the design of the subject image encoder significantly impacts identity preservation quality, and (2) separating text and subject guidance is crucial for both text alignment and identity preservation. Building on these insights, we introduce a new approach called EZIGen, which employs two main strategies: a carefully crafted subject image Encoder based on the pretrained UNet of the Stable Diffusion model to ensure high-quality identity transfer, following a process that decouples the guidance stages and iteratively refines the initial image layout. Through these strategies, EZIGen achieves state-of-the-art results on multiple subject-driven benchmarks with a unified model and 100 times less training data. The demo page is available at: https://zichengduan.github.io/pages/EZIGen/index.html.
arxiv情報
著者 | Zicheng Duan,Yuxuan Ding,Chenhui Gou,Ziqin Zhou,Ethan Smith,Lingqiao Liu |
発行日 | 2024-10-01 17:52:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google