Personalized Residuals for Concept-Driven Text-to-Image Generation

要約

テキストから画像への拡散モデルを使用した効率的なコンセプト主導型生成のための、パーソナライズされた残差と局所的な注意誘導サンプリングを紹介します。
私たちの方法では、まず、事前トレーニングされたテキスト条件付き拡散モデルの重みをフリーズし、モデルのレイヤーの小さなサブセットの低ランク残差を学習することで概念を表現します。
残差ベースのアプローチにより、私たちが提案するサンプリング手法の適用が直接可能になります。これにより、学習された残差はクロスアテンションによって概念が局在化される領域にのみ適用され、他のすべての領域には元の拡散重みが適用されます。
したがって、局所的なサンプリングでは、学習された概念の同一性と、基礎となる拡散モデルの既存の生成事前分布が結合されます。
パーソナライズされた残差は、正則化画像を使用せず、以前のモデルよりも少ないパラメーターを使用して、単一の GPU で ~ 3 分で概念のアイデンティティを効果的にキャプチャすることを示します。また、局所的なサンプリングにより、元のモデルを大部分の強力な事前分布として使用できるようになります。
画像。

要約(オリジナル)

We present personalized residuals and localized attention-guided sampling for efficient concept-driven generation using text-to-image diffusion models. Our method first represents concepts by freezing the weights of a pretrained text-conditioned diffusion model and learning low-rank residuals for a small subset of the model’s layers. The residual-based approach then directly enables application of our proposed sampling technique, which applies the learned residuals only in areas where the concept is localized via cross-attention and applies the original diffusion weights in all other regions. Localized sampling therefore combines the learned identity of the concept with the existing generative prior of the underlying diffusion model. We show that personalized residuals effectively capture the identity of a concept in ~3 minutes on a single GPU without the use of regularization images and with fewer parameters than previous models, and localized sampling allows using the original model as strong prior for large parts of the image.

arxiv情報

著者 Cusuh Ham,Matthew Fisher,James Hays,Nicholas Kolkin,Yuchen Liu,Richard Zhang,Tobias Hinz
発行日 2024-05-21 17:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク