Inserting Anybody in Diffusion Models via Celeb Basis

要約

ユーザー自身のような革新的な概念を生成するために、事前学習済みの大規模なテキストから画像へのモデル、$\textit{e.g.}$、安定拡散をカスタマイズするという絶妙な需要が存在します。
ただし、以前のカスタマイズ方法から新たに追加されたコンセプトは、トレーニング中にいくつかの画像が与えられたとしても、元のコンセプトよりも弱い組み合わせ能力を示すことがよくあります。
そこで、$\textbf{1 枚の顔写真}$ と $\textbf{1024 個の学習可能なパラメータ}$ だけを使用して、事前トレーニングされた拡散モデルに固有の個人をシームレスに統合できる新しいパーソナライゼーション方法を提案します。
{3 分}$。
そのため、あらゆるポーズや姿勢で、誰とでも対話し、テキスト プロンプトから想像できるあらゆることを行っているこの人物の見事な画像を簡単に生成できます。
これを達成するために、私たちはまず、事前にトレーニングされたラージ テキスト エンコーダーの埋め込みスペースから、明確に定義されたセレブの基礎を分析して構築します。
次に、ターゲット ID として 1 つの顔写真を指定すると、この基礎の重みを最適化し、他のすべてのパラメーターをロックすることによって、独自の埋め込みを生成します。
提案されたセレブベースによって強化された、カスタマイズされたモデルの新しいアイデンティティは、以前のパーソナライゼーション方法よりも優れたコンセプトの組み合わせ能力を示しています。
さらに、私たちのモデルは、複数の新しい ID を一度に学習し、以前のカスタマイズ モデルではできなかった相互作用を行うこともできます。
コードが公開されます。

要約(オリジナル)

Exquisite demand exists for customizing the pretrained large text-to-image model, $\textit{e.g.}$, Stable Diffusion, to generate innovative concepts, such as the users themselves. However, the newly-added concept from previous customization methods often shows weaker combination abilities than the original ones even given several images during training. We thus propose a new personalization method that allows for the seamless integration of a unique individual into the pre-trained diffusion model using just $\textbf{one facial photograph}$ and only $\textbf{1024 learnable parameters}$ under $\textbf{3 minutes}$. So as we can effortlessly generate stunning images of this person in any pose or position, interacting with anyone and doing anything imaginable from text prompts. To achieve this, we first analyze and build a well-defined celeb basis from the embedding space of the pre-trained large text encoder. Then, given one facial photo as the target identity, we generate its own embedding by optimizing the weight of this basis and locking all other parameters. Empowered by the proposed celeb basis, the new identity in our customized model showcases a better concept combination ability than previous personalization methods. Besides, our model can also learn several new identities at once and interact with each other where the previous customization model fails to. The code will be released.

arxiv情報

著者 Ge Yuan,Xiaodong Cun,Yong Zhang,Maomao Li,Chenyang Qi,Xintao Wang,Ying Shan,Huicheng Zheng
発行日 2023-06-01 17:30:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク