Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You

要約

テキストから画像への生成モデルは、最近、画質、柔軟性、テキストの配置において驚くべき結果を達成しており、その結果、急速に増加しているアプリケーションで採用されています。
多言語能力の向上により、より大きなコミュニティがこの種のテクノロジーにアクセスできるようになりました。
しかし、これから示すように、多言語モデルは単言語モデルと同様に(ジェンダー)バイアスに悩まされます。
さらに、これらのモデルは言語を超えて同様の結果を提供すると自然に期待されますが、実際はそうではなく、言語間には重要な違いがあります。
したがって、性別による偏見のない多言語モデルでの研究を促進することを目的とした、新しいベンチマーク MAGBIG を提案します。
MAGBIG を使用して、多言語 T2I モデルがジェンダーバイアスを拡大するかどうかを調査します。
この目的のために、私たちは、特定の職業または特性を持つ人物の肖像画の画像を要求する多言語プロンプトを使用します (形容詞を使用)。
私たちの結果は、各性別が同じように生成されるはずであるという規範的な仮定からモデルが逸脱しているだけでなく、言語によって大きな違いがあることも示しています。
さらに、これらのバイアスに対する可能な治療法として、迅速なエンジニアリング戦略、つまり間接的で中立的な処方の使用を調査します。
残念ながら、これらは限られた範囲でしか役に立たず、テキストと画像の位置合わせが悪化します。
したがって、この研究では、画像ジェネレーターにおける言語間の多様な表現についてのさらなる研究が必要です。

要約(オリジナル)

Text-to-image generation models have recently achieved astonishing results in image quality, flexibility, and text alignment and are consequently employed in a fast-growing number of applications. Through improvements in multilingual abilities, a larger community now has access to this kind of technology. Yet, as we will show, multilingual models suffer similarly from (gender) biases as monolingual models. Furthermore, the natural expectation is that these models will provide similar results across languages, but this is not the case and there are important differences between languages. Thus, we propose a novel benchmark MAGBIG intending to foster research in multilingual models without gender bias. We investigate whether multilingual T2I models magnify gender bias with MAGBIG. To this end, we use multilingual prompts requesting portrait images of persons of a certain occupation or trait (using adjectives). Our results show not only that models deviate from the normative assumption that each gender should be equally likely to be generated, but that there are also big differences across languages. Furthermore, we investigate prompt engineering strategies, i.e. the use of indirect, neutral formulations, as a possible remedy for these biases. Unfortunately, they help only to a limited extent and result in worse text-to-image alignment. Consequently, this work calls for more research into diverse representations across languages in image generators.

arxiv情報

著者 Felix Friedrich,Katharina Hämmerl,Patrick Schramowski,Jindrich Libovicky,Kristian Kersting,Alexander Fraser
発行日 2024-01-31 08:33:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.LG パーマリンク