The Stable Artist: Steering Semantics in Diffusion Latent Space

要約

大規模なテキスト条件付き生成拡散モデルは、テキストのみから高忠実度の画像を生成する優れたパフォーマンスにより、最近多くの注目を集めています。
ただし、高品質の結果を一発で達成することはほとんど不可能です。
それとは反対に、テキストガイドによる画像生成では、ユーザーが入力に対して多くのわずかな変更を加えて、思い描いた画像を繰り返し作成する必要があります。
ただし、入力プロンプトをわずかに変更すると、まったく異なる画像が生成されることがよくあるため、アーティストの制御の粒度は限られています。
柔軟性を提供するために、画像生成プロセスのきめ細かい制御を可能にする画像編集アプローチである Stable Artist を紹介します。
主なコンポーネントは、さまざまな数の意味論的な方向に沿って普及プロセスを導くセマンティック ガイダンス (SEGA) です。
これにより、画像の微妙な編集、構成やスタイルの変更、全体的な芸術的概念の最適化が可能になります。
さらに、SEGA は、「炭素排出」などの複雑な概念であっても、モデルによって学習された概念の表現についての洞察を得るために潜在空間を調査することを可能にします。
いくつかのタスクで Stable Artist をデモンストレーションし、高品質の画像編集と合成を紹介します。

要約(オリジナル)

Large, text-conditioned generative diffusion models have recently gained a lot of attention for their impressive performance in generating high-fidelity images from text alone. However, achieving high-quality results is almost unfeasible in a one-shot fashion. On the contrary, text-guided image generation involves the user making many slight changes to inputs in order to iteratively carve out the envisioned image. However, slight changes to the input prompt often lead to entirely different images being generated, and thus the control of the artist is limited in its granularity. To provide flexibility, we present the Stable Artist, an image editing approach enabling fine-grained control of the image generation process. The main component is semantic guidance (SEGA) which steers the diffusion process along variable numbers of semantic directions. This allows for subtle edits to images, changes in composition and style, as well as optimization of the overall artistic conception. Furthermore, SEGA enables probing of latent spaces to gain insights into the representation of concepts learned by the model, even complex ones such as ‘carbon emission’. We demonstrate the Stable Artist on several tasks, showcasing high-quality image editing and composition.

arxiv情報

著者 Manuel Brack,Patrick Schramowski,Felix Friedrich,Dominik Hintersdorf,Kristian Kersting
発行日 2023-05-31 15:17:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク