Fair Text-to-Image Diffusion via Fair Mapping

要約

この論文では、人間関連の説明が与えられた場合に人口統計的に公平な結果を生成する際の既存のテキストから画像への拡散モデルの限界について取り上げます。
これらのモデルは、多くの場合、ターゲット言語のコンテキストを社会文化的バイアスから解きほぐすのに苦労し、その結果、偏った画像が生成されます。
この課題を克服するために、私たちは、公平な画像生成を達成するためにプロンプ​​トを制御することによって、事前にトレーニングされたテキストから画像へのモデルを変更する、一般的でモデルに依存しない軽量なアプローチであるフェア マッピングを提案します。
私たちのアプローチの重要な利点の 1 つは、その効率の高さです。
トレーニング プロセスでは、追加の線形マッピング ネットワーク内の少数のパラメーターを更新するだけで済みます。
これにより、計算コストが削減されるだけでなく、最適化プロセスも高速化されます。
まず、テキスト誘導拡散モデルにおける言語バイアスによって引き起こされる、生成された結果のバイアスの問題を示します。
言語の埋め込みを偏りのない空間に投影するマッピング ネットワークを開発することで、プロンプトで指定されたキーワードに基づいて比較的バランスのとれた人口統計結果を生成できるようになります。
顔画像生成に関する包括的な実験により、人間の顔に関連する説明が求められた場合に、私たちの方法が画像生成パフォーマンスを大幅に向上させることを示します。
バイアスの問題に効果的に対処することで、より公平で多様な画像出力を生成します。
この研究は、テキストで指定された意図された人口統計的特徴を正確に反映する画像を生成する能力を強化することにより、テキストから画像への生成の分野に貢献します。

要約(オリジナル)

In this paper, we address the limitations of existing text-to-image diffusion models in generating demographically fair results when given human-related descriptions. These models often struggle to disentangle the target language context from sociocultural biases, resulting in biased image generation. To overcome this challenge, we propose Fair Mapping, a general, model-agnostic, and lightweight approach that modifies a pre-trained text-to-image model by controlling the prompt to achieve fair image generation. One key advantage of our approach is its high efficiency. The training process only requires updating a small number of parameters in an additional linear mapping network. This not only reduces the computational cost but also accelerates the optimization process. We first demonstrate the issue of bias in generated results caused by language biases in text-guided diffusion models. By developing a mapping network that projects language embeddings into an unbiased space, we enable the generation of relatively balanced demographic results based on a keyword specified in the prompt. With comprehensive experiments on face image generation, we show that our method significantly improves image generation performance when prompted with descriptions related to human faces. By effectively addressing the issue of bias, we produce more fair and diverse image outputs. This work contributes to the field of text-to-image generation by enhancing the ability to generate images that accurately reflect the intended demographic characteristics specified in the text.

arxiv情報

著者 Jia Li,Lijie Hu,Jingfeng Zhang,Tianhang Zheng,Hua Zhang,Di Wang
発行日 2023-11-29 15:02:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.CY, cs.LG パーマリンク