要約
タイトル:DreamArtist:Positive-Negative Prompt-Tuningによる制御可能なワンショットテキストから画像生成へ
要約:
– テキストから画像生成モデルは、テキストによってガイドされた高品質で特徴豊かな画像の合成において、高い解像度を達成することができた。
– しかしながらこのようなモデルは、新しいスタイル、物体エンティティ等の新規概念に苦戦することが多い。
– 最近の試みでは、事前学習された拡散モデルに対して、fine-tuningまたはprompt-tuning戦略を採用して、参考画像セットから新しい概念を教え込むことができるようになっているが、その場合一度きりのアプリケーションにおいては、与えられた参照画像にオーバーフィットしてしまう欠点があり、多様性と高品質の画像を生成し続けながら制御性を維持することは困難である。
– このような課題を解決するため、DreamArtistというシンプルで効果的な方法を提案し、ポジティブ-ネガティブプロンプトチューニング学習戦略を採用する。具体的には、DreamArtistは、ポジティブとネガティブの両方の埋め込みを組み込み、共同で学習する。ポジティブ埋め込みは、多様な生成を促進するために基準画像の顕著な特徴を攻撃的に捕捉し、ネガティブ埋め込みは、ポジティブ埋め込みの不足を補正する。正しいものだけでなく、回避すべきものや改善すべきものを学習する。
– DreamArtistは、画像の類似性と多様性、生成制御、スタイルクローニングなどの観点から提案された手法を広範囲に評価し、既存手法より優れた生成能力を発揮した。さらに、概念合成やプロンプトガイドされた画像編集のような追加の評価を行い、より多くのアプリケーションに対する有効性を示した。
要約(オリジナル)
Large-scale text-to-image generation models have achieved remarkable progress in synthesizing high-quality, feature-rich images with high resolution guided by texts. However, these models often struggle with novel concepts, eg, new styles, object entities, etc. Although recent attempts have employed fine-tuning or prompt-tuning strategies to teach the pre-trained diffusion model novel concepts from a reference image set,they have the drawback of overfitting to the given reference images, particularly in one-shot applications, which is harmful to generate diverse and high-quality images while maintaining generation controllability. To tackle this challenge, we present a simple yet effective method called DreamArtist, which employs a positive-negative prompt-tuning learning strategy. Specifically, DreamArtist incorporates both positive and negative embeddings and jointly trains them. The positive embedding aggressively captures the salient characteristics of the reference image to drive diversified generation and the negative embedding rectifies inadequacies from the positive embedding. It learns not only what is correct, but also what can be avoided or improved. We have conducted extensive experiments and evaluated the proposed method from image similarity and diversity, generation controllability, and style cloning. And our DreamArtist has achieved a superior generation performance over existing methods. Besides, our additional evaluation on extended tasks, including concept compositions and prompt-guided image editing, demonstrates its effectiveness for more applications.
arxiv情報
著者 | Ziyi Dong,Pengxu Wei,Liang Lin |
発行日 | 2023-04-05 13:38:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI