Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You

要約

テキストから画像への生成モデルは、最近、画質、柔軟性、テキストの配置において驚くべき結果を達成しており、その結果、急速に増加しているアプリケーションで採用されています。
多言語能力の向上により、より大きなコミュニティがこのテクノロジーにアクセスできるようになりました。
しかし、私たちの結果は、多言語モデルも単言語モデルと同様に重大なジェンダーバイアスに悩まされていることを示しています。
さらに、多言語モデルがどの言語でも同様の結果を提供するという当然の期待は成り立ちません。
その代わり、言語間には重要な違いがあります。
私たちは、多言語モデルにおけるジェンダーバイアスに関する研究を促進することを目的とした、新しいベンチマーク MAGBIG を提案します。
私たちは MAGBIG を使用して、T2I モデルにおけるジェンダーバイアスに対する多言語使用の影響を調査します。
この目的を達成するために、特定の職業や特性を持つ人々の肖像画を要求する多言語プロンプトを作成します。
私たちの結果は、モデルが強いジェンダーバイアスを示すだけでなく、言語によって異なる動作をすることを示しています。
さらに、これらのバイアスを軽減するために、間接的で中立的な定式化などの迅速なエンジニアリング戦略を調査します。
残念ながら、これらのアプローチの成功は限られており、テキストと画像の位置合わせが悪化します。
したがって、画像ジェネレーターにおける言語間の多様な表現と、偏ったモデルの動作に対処するための操作性についてのさらなる研究が必要です。

要約(オリジナル)

Text-to-image generation models have recently achieved astonishing results in image quality, flexibility, and text alignment, and are consequently employed in a fast-growing number of applications. Through improvements in multilingual abilities, a larger community now has access to this technology. However, our results show that multilingual models suffer from significant gender biases just as monolingual models do. Furthermore, the natural expectation that multilingual models will provide similar results across languages does not hold up. Instead, there are important differences between languages. We propose a novel benchmark, MAGBIG, intended to foster research on gender bias in multilingual models. We use MAGBIG to investigate the effect of multilingualism on gender bias in T2I models. To this end, we construct multilingual prompts requesting portraits of people with a certain occupation or trait. Our results show that not only do models exhibit strong gender biases but they also behave differently across languages. Furthermore, we investigate prompt engineering strategies, such as indirect, neutral formulations, to mitigate these biases. Unfortunately, these approaches have limited success and result in worse text-to-image alignment. Consequently, we call for more research into diverse representations across languages in image generators, as well as into steerability to address biased model behavior.

arxiv情報

著者 Felix Friedrich,Katharina Hämmerl,Patrick Schramowski,Manuel Brack,Jindrich Libovicky,Kristian Kersting,Alexander Fraser
発行日 2024-05-15 15:29:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.LG パーマリンク