ITI-GEN: Inclusive Text-to-Image Generation

要約

テキストから画像への生成モデルは、トレーニング データのバイアスを反映することが多く、過小評価されたグループの不平等な表現につながります。
この研究では、人間が書いたプロンプトに基づいて画像を生成し、結果として得られる画像が対象の属性全体に均一に分散されることを保証する、包括的なテキストから画像への生成モデルを調査します。
残念ながら、プロンプトで目的の属性を直接表現すると、言語的な曖昧さやモデルの表現の誤りにより、最適とはいえない結果が生じることがよくあります。
したがって、この論文は、「百聞は一見に如かず」という格言に従う、まったく異なるアプローチを提案します。
一部の属性では、画像はテキストよりも表現力豊かに概念を表現できることを示します。
たとえば、肌の色のカテゴリは通常、テキストで指定するのは困難ですが、サンプル画像を使用すると簡単に表現できます。
これらの洞察に基づいて、私たちは包括的なテキストから画像への生成にすぐに利用できる参照画像を活用する新しいアプローチである ITI-GEN を提案します。
重要なアイデアは、一連のプロンプト埋め込みを学習して、必要なすべての属性カテゴリを効果的に表現できる画像を生成することです。
さらに重要なことは、ITI-GEN ではモデルの微調整が必​​要ないため、既存のテキストから画像へのモデルを拡張する際の計算効率が向上します。
広範な実験により、ITI-GEN はプロンプトから包括的な画像を生成するために、最先端のモデルよりも大幅に向上していることが実証されました。
プロジェクトページ: https://czhang0528.github.io/iti-gen。

要約(オリジナル)

Text-to-image generative models often reflect the biases of the training data, leading to unequal representations of underrepresented groups. This study investigates inclusive text-to-image generative models that generate images based on human-written prompts and ensure the resulting images are uniformly distributed across attributes of interest. Unfortunately, directly expressing the desired attributes in the prompt often leads to sub-optimal results due to linguistic ambiguity or model misrepresentation. Hence, this paper proposes a drastically different approach that adheres to the maxim that ‘a picture is worth a thousand words’. We show that, for some attributes, images can represent concepts more expressively than text. For instance, categories of skin tones are typically hard to specify by text but can be easily represented by example images. Building upon these insights, we propose a novel approach, ITI-GEN, that leverages readily available reference images for Inclusive Text-to-Image GENeration. The key idea is learning a set of prompt embeddings to generate images that can effectively represent all desired attribute categories. More importantly, ITI-GEN requires no model fine-tuning, making it computationally efficient to augment existing text-to-image models. Extensive experiments demonstrate that ITI-GEN largely improves over state-of-the-art models to generate inclusive images from a prompt. Project page: https://czhang0528.github.io/iti-gen.

arxiv情報

著者 Cheng Zhang,Xuanbai Chen,Siqi Chai,Chen Henry Wu,Dmitry Lagun,Thabo Beeler,Fernando De la Torre
発行日 2023-09-11 15:54:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク