ProSpect: Expanded Conditioning for the Personalization of Attribute-aware Image Generation

要約

生成モデルをパーソナライズすると、ユーザーが提供した参照を使用して画像生成をガイドする方法が提供されます。
現在のパーソナライゼーション方法では、オブジェクトまたは概念をテキスト条件付け空間に反転させ、テキストから画像への拡散モデル用の新しい自然な文を作成できます。
ただし、マテリアル、スタイル、レイアウトなどの特定の視覚的属性を表現および編集することは依然として課題であり、その結果、解析性や編集性が欠如します。
これに対処するために、低周波情報から高周波情報に基づいて画像を生成する拡散モデルの段階的な生成プロセスを活用する新しいアプローチを提案し、画像の表現、生成、編集に関する新しい視点を提供します。
私たちは、拡張されたテキスト条件付け空間である Prompt Spectrum Space P* と、ProSpect と呼ばれる新しい画像表現方法を開発しています。
ProSpect は、ステージごとのプロンプトからエンコードされた反転テキスト トークン埋め込みのコレクションとして画像を表します。各プロンプトは、拡散モデルの特定の生成ステージ (つまり、連続するステップのグループ) に対応します。
実験結果は、P* と ProSpect が既存の方法と比較して強力なもつれの解消と制御性を提供することを示しています。
当社は、画像/テキストガイド付きマテリアル/スタイル/レイアウト転送/編集など、さまざまなパーソナライズされた属性認識画像生成アプリケーションに ProSpect を適用し、拡散モデルを微調整することなく、単一の画像入力で以前は達成できなかった結果を達成します。

要約(オリジナル)

Personalizing generative models offers a way to guide image generation with user-provided references. Current personalization methods can invert an object or concept into the textual conditioning space and compose new natural sentences for text-to-image diffusion models. However, representing and editing specific visual attributes like material, style, layout, etc. remains a challenge, leading to a lack of disentanglement and editability. To address this, we propose a novel approach that leverages the step-by-step generation process of diffusion models, which generate images from low- to high-frequency information, providing a new perspective on representing, generating, and editing images. We develop Prompt Spectrum Space P*, an expanded textual conditioning space, and a new image representation method called ProSpect. ProSpect represents an image as a collection of inverted textual token embeddings encoded from per-stage prompts, where each prompt corresponds to a specific generation stage (i.e., a group of consecutive steps) of the diffusion model. Experimental results demonstrate that P* and ProSpect offer stronger disentanglement and controllability compared to existing methods. We apply ProSpect in various personalized attribute-aware image generation applications, such as image/text-guided material/style/layout transfer/editing, achieving previously unattainable results with a single image input without fine-tuning the diffusion models.

arxiv情報

著者 Yuxin Zhang,Weiming Dong,Fan Tang,Nisha Huang,Haibin Huang,Chongyang Ma,Tong-Yee Lee,Oliver Deussen,Changsheng Xu
発行日 2023-05-30 14:48:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク