InstantID: Zero-shot Identity-Preserving Generation in Seconds

要約

Textual Inversion、DreamBooth、LoRAなどの手法により、パーソナライズされた画像合成の進歩は著しい。しかし、これらの手法の実世界での適用性は、高いストレージ要求、長い微調整プロセス、複数の参照画像の必要性によって妨げられている。逆に、既存のID埋め込みベースの手法は、1回の前方推論しか必要としないものの、多数のモデルパラメータにわたって大規模な微調整が必要であったり、コミュニティで事前に訓練されたモデルとの互換性がなかったり、高い顔忠実度を維持できなかったりするという課題を抱えている。これらの限界に対処するため、我々は、拡散モデルに基づく強力なソリューションであるInstantIDを紹介する。我々のプラグアンドプレイモジュールは、高い忠実度を確保しながら、単一の顔画像を使用して、様々なスタイルでの画像パーソナライゼーションを巧みに処理する。これを実現するために、我々は、強い意味的条件と弱い空間的条件を課すことによって、新しいIdentityNetを設計し、顔画像とランドマーク画像をテキストプロンプトと統合して、画像生成を制御する。InstantIDは卓越した性能と効率を示し、IDの保存が最も重要な実世界のアプリケーションにおいて非常に有益であることを証明する。さらに、我々の研究は、SD1.5やSDXLのような事前に訓練された一般的なテキストから画像への拡散モデルとシームレスに統合し、適応可能なプラグインとして機能します。我々のコードと事前学習済みチェックポイントは、https://github.com/InstantID/InstantID。

要約(オリジナル)

There has been significant progress in personalized image synthesis with methods such as Textual Inversion, DreamBooth, and LoRA. Yet, their real-world applicability is hindered by high storage demands, lengthy fine-tuning processes, and the need for multiple reference images. Conversely, existing ID embedding-based methods, while requiring only a single forward inference, face challenges: they either necessitate extensive fine-tuning across numerous model parameters, lack compatibility with community pre-trained models, or fail to maintain high face fidelity. Addressing these limitations, we introduce InstantID, a powerful diffusion model-based solution. Our plug-and-play module adeptly handles image personalization in various styles using just a single facial image, while ensuring high fidelity. To achieve this, we design a novel IdentityNet by imposing strong semantic and weak spatial conditions, integrating facial and landmark images with textual prompts to steer the image generation. InstantID demonstrates exceptional performance and efficiency, proving highly beneficial in real-world applications where identity preservation is paramount. Moreover, our work seamlessly integrates with popular pre-trained text-to-image diffusion models like SD1.5 and SDXL, serving as an adaptable plugin. Our codes and pre-trained checkpoints will be available at https://github.com/InstantID/InstantID.

arxiv情報

著者 Qixun Wang,Xu Bai,Haofan Wang,Zekui Qin,Anthony Chen,Huaxia Li,Xu Tang,Yao Hu
発行日 2024-02-02 16:15:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク