The Stable Artist: Steering Semantics in Diffusion Latent Space

要約

大規模なテキスト条件付き生成拡散モデルは、テキストのみから忠実度の高い画像を生成する際の印象的なパフォーマンスで、最近多くの注目を集めています。
ただし、ワンショットで高品質の結果を達成することはほとんど不可能です。
反対に、テキスト ガイドによる画像生成では、ユーザーが想定した画像を繰り返し切り出すために、入力に多くのわずかな変更を加える必要があります。
ただし、入力プロンプトをわずかに変更すると、まったく異なる画像が生成されることがよくあります。したがって、アーティストの制御はその粒度に制限されます。
柔軟性を提供するために、画像生成プロセスのきめ細かな制御を可能にする画像編集アプローチである Stable Artist を紹介します。
主なコンポーネントはセマンティック ガイダンス (SEGA) であり、可変数のセマンティック方向に沿って拡散プロセスを誘導します。
これにより、画像の微妙な編集、構成とスタイルの変更、および全体的な芸術的概念の最適化が可能になります。
さらに、SEGA は、モデルによって学習された概念の表現、さらには「炭素排出」などの複雑な概念の表現への洞察を得るために、潜在空間の探査を可能にします。
高品質の画像編集と構成を紹介しながら、いくつかのタスクで Stable Artist のデモを行います。

要約(オリジナル)

Large, text-conditioned generative diffusion models have recently gained a lot of attention for their impressive performance in generating high-fidelity images from text alone. However, achieving high-quality results is almost unfeasible in a one-shot fashion. On the contrary, text-guided image generation involves the user making many slight changes to inputs in order to iteratively carve out the envisioned image. However, slight changes to the input prompt often lead to entirely different images being generated, and thus the control of the artist is limited in its granularity. To provide flexibility, we present the Stable Artist, an image editing approach enabling fine-grained control of the image generation process. The main component is semantic guidance (SEGA) which steers the diffusion process along variable numbers of semantic directions. This allows for subtle edits to images, changes in composition and style, as well as optimization of the overall artistic conception. Furthermore, SEGA enables probing of latent spaces to gain insights into the representation of concepts learned by the model, even complex ones such as ‘carbon emission’. We demonstrate the Stable Artist on several tasks, showcasing high-quality image editing and composition.

arxiv情報

著者 Manuel Brack,Patrick Schramowski,Felix Friedrich,Dominik Hintersdorf,Kristian Kersting
発行日 2022-12-30 10:43:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク