PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding


テキストから画像への生成における最近の進歩により、指定されたテキスト プロンプトに基づいてリアルな人間の写真を合成する際に目覚ましい進歩が見られました。
ただし、既存のパーソナライズされた生成方法では、高効率、確実な ID (ID) 忠実性、および柔軟なテキスト制御性の要件を同時に満たすことはできません。
この研究では、効率的なパーソナライズされたテキストから画像への生成方法である PhotoMaker を紹介します。これは主に、ID 情報を保存するために、任意の数の入力 ID 画像をスタック ID 埋め込みにエンコードします。
このような埋め込みは、統一 ID 表現として機能し、同じ入力 ID の特性を包括的にカプセル化するだけでなく、その後の統合のために異なる ID の特性にも対応できます。
さらに、PhotoMaker のトレーニングを推進するために、トレーニング データを組み立てるための ID 指向のデータ構築パイプラインを提案します。
提案されたパイプラインを通じて構築されたデータセットの栄養のもとで、当社の PhotoMaker は、テスト時の微調整ベースの方法よりも優れた ID 保存能力を実証しながら、大幅な速度向上、高品質の生成結果、強力な一般化機能、および幅広い機能を提供します。
私たちのプロジェクトページは から入手できます。


Recent advances in text-to-image generation have made remarkable progress in synthesizing realistic human photos conditioned on given text prompts. However, existing personalized generation methods cannot simultaneously satisfy the requirements of high efficiency, promising identity (ID) fidelity, and flexible text controllability. In this work, we introduce PhotoMaker, an efficient personalized text-to-image generation method, which mainly encodes an arbitrary number of input ID images into a stack ID embedding for preserving ID information. Such an embedding, serving as a unified ID representation, can not only encapsulate the characteristics of the same input ID comprehensively, but also accommodate the characteristics of different IDs for subsequent integration. This paves the way for more intriguing and practically valuable applications. Besides, to drive the training of our PhotoMaker, we propose an ID-oriented data construction pipeline to assemble the training data. Under the nourishment of the dataset constructed through the proposed pipeline, our PhotoMaker demonstrates better ID preservation ability than test-time fine-tuning based methods, yet provides significant speed improvements, high-quality generation results, strong generalization capabilities, and a wide range of applications. Our project page is available at


著者 Zhen Li,Mingdeng Cao,Xintao Wang,Zhongang Qi,Ming-Ming Cheng,Ying Shan
発行日 2023-12-07 17:32:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM パーマリンク