SpaText: Spatio-Textual Representation for Controllable Image Generation

要約

最近のテキストから画像への拡散モデルは、前例のない品質の説得力のある結果を生成できます。
ただし、さまざまな領域/オブジェクトの形状またはそれらのレイアウトをきめ細かく制御することはほとんど不可能です。
このようなコントロールを提供する以前の試みは、固定された一連のラベルへの依存によって妨げられていました。
この目的のために、SpaText を提示します。これは、オープン語彙シーン コントロールを使用したテキストから画像への新しい生成方法です。
シーン全体を説明するグローバル テキスト プロンプトに加えて、ユーザーはセグメンテーション マップを提供します。このマップでは、関心のある各領域に自由形式の自然言語による説明が付けられます。
画像内の各領域の詳細なテキスト記述を持つ大規模なデータセットが不足しているため、現在の大規模なテキストから画像へのデータセットを活用し、新しい CLIP ベースの空間テキスト表現に基づいてアプローチすることを選択します
、ピクセルベースと潜在ベースの 2 つの最先端の拡散モデルでその有効性を示します。
さらに、拡散モデルの分類子を使用しないガイダンス方法を多条件のケースに拡張する方法を示し、代替の加速推論アルゴリズムを提示します。
最後に、いくつかの自動評価指標を提供し、FID スコアとユーザー調査に加えてそれらを使用して、方法を評価し、自由形式のテキスト シーン コントロールによる画像生成で最先端の結果を達成することを示します。

要約(オリジナル)

Recent text-to-image diffusion models are able to generate convincing results of unprecedented quality. However, it is nearly impossible to control the shapes of different regions/objects or their layout in a fine-grained fashion. Previous attempts to provide such controls were hindered by their reliance on a fixed set of labels. To this end, we present SpaText – a new method for text-to-image generation using open-vocabulary scene control. In addition to a global text prompt that describes the entire scene, the user provides a segmentation map where each region of interest is annotated by a free-form natural language description. Due to lack of large-scale datasets that have a detailed textual description for each region in the image, we choose to leverage the current large-scale text-to-image datasets and base our approach on a novel CLIP-based spatio-textual representation, and show its effectiveness on two state-of-the-art diffusion models: pixel-based and latent-based. In addition, we show how to extend the classifier-free guidance method in diffusion models to the multi-conditional case and present an alternative accelerated inference algorithm. Finally, we offer several automatic evaluation metrics and use them, in addition to FID scores and a user study, to evaluate our method and show that it achieves state-of-the-art results on image generation with free-form textual scene control.

arxiv情報

著者 Omri Avrahami,Thomas Hayes,Oran Gafni,Sonal Gupta,Yaniv Taigman,Devi Parikh,Dani Lischinski,Ohad Fried,Xi Yin
発行日 2022-11-25 18:59:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク