Improving image synthesis with diffusion-negative sampling

要約

拡散モデル (DM) を使用した画像生成の場合、負のプロンプト n を使用してテキスト プロンプト p を補完することができ、合成画像に望ましくないプロパティを定義するのに役立ちます。
これによりプロンプトの遵守と画質が向上しますが、適切な否定的なプロンプトを見つけるのは困難です。
私たちは、これは人間と DM の間の意味上のギャップによるものであり、そのため DM に対する適切な否定的なプロンプトが人間にとって直感的ではないように見えるのだと主張します。
このギャップを埋めるために、新しい拡散ネガティブプロンプティング (DNP) 戦略を提案します。
DNP は、拡散ネガティブ サンプリング (DNS) と呼ばれる、DM の分布の下で p への適合性が最も低い画像をサンプリングする新しい手順に基づいています。
p が与えられると、そのような画像が 1 つサンプリングされ、ユーザーまたはキャプション モデルによって自然言語に翻訳されて、否定プロンプト n* が生成されます。
ペア (p, n*) は最終的に DM にプロンプ​​トを表示するために使用されます。
DNS は実装が簡単で、トレーニングは必要ありません。
実験と人による評価では、DNP が量的および質的に優れたパフォーマンスを示し、いくつかの DM バリアントと簡単に組み合わせることができることが示されています。

要約(オリジナル)

For image generation with diffusion models (DMs), a negative prompt n can be used to complement the text prompt p, helping define properties not desired in the synthesized image. While this improves prompt adherence and image quality, finding good negative prompts is challenging. We argue that this is due to a semantic gap between humans and DMs, which makes good negative prompts for DMs appear unintuitive to humans. To bridge this gap, we propose a new diffusion-negative prompting (DNP) strategy. DNP is based on a new procedure to sample images that are least compliant with p under the distribution of the DM, denoted as diffusion-negative sampling (DNS). Given p, one such image is sampled, which is then translated into natural language by the user or a captioning model, to produce the negative prompt n*. The pair (p, n*) is finally used to prompt the DM. DNS is straightforward to implement and requires no training. Experiments and human evaluations show that DNP performs well both quantitatively and qualitatively and can be easily combined with several DM variants.

arxiv情報

著者 Alakh Desai,Nuno Vasconcelos
発行日 2024-11-08 10:58:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク