Exploiting Cultural Biases via Homoglyphs in Text-to-Image Synthesis

要約

DALL-E~2 や Stable Diffusion などのテキストから画像への合成モデルは、最近、学界や一般の人々から多くの関心を集めています。
これらのモデルは、テキストの説明に基づいてさまざまな概念やスタイルを表現する高品質の画像を生成できます。
ただし、これらのモデルは、膨大な量のトレーニング データから特定の Unicode スクリプトに関連付けられた文化的特性を採用しているため、すぐには明らかにならない場合があります。
テキストの説明に単一の非ラテン文字を挿入するだけで、一般的なモデルが生成された画像に文化的ステレオタイプとバイアスを反映することを示します。
この動作を定性的および定量的に分析し、モデルのテキスト エンコーダーを現象の根本原因として特定します。
さらに、悪意のあるユーザーやサービス プロバイダーは、ラテン語の文字をラテン語以外のスクリプトの見た目が似ている文字、いわゆるホモグリフに置き換えることで、人種差別的なステレオタイプを作成するために意図的に画像生成を偏らせようとする場合があります。
このような見過ごされたスクリプト攻撃を軽減するために、テキスト エンコーダーを微調整し、ホモグリフ操作に対して堅牢にする新しいホモグリフ学習解除方法を提案します。

要約(オリジナル)

Models for text-to-image synthesis, such as DALL-E~2 and Stable Diffusion, have recently drawn a lot of interest from academia and the general public. These models are capable of producing high-quality images that depict a variety of concepts and styles when conditioned on textual descriptions. However, these models adopt cultural characteristics associated with specific Unicode scripts from their vast amount of training data, which may not be immediately apparent. We show that by simply inserting single non-Latin characters in a textual description, common models reflect cultural stereotypes and biases in their generated images. We analyze this behavior both qualitatively and quantitatively, and identify a model’s text encoder as the root cause of the phenomenon. Additionally, malicious users or service providers may try to intentionally bias the image generation to create racist stereotypes by replacing Latin characters with similarly-looking characters from non-Latin scripts, so-called homoglyphs. To mitigate such unnoticed script attacks, we propose a novel homoglyph unlearning method to fine-tune a text encoder, making it robust against homoglyph manipulations.

arxiv情報

著者 Lukas Struppek,Dominik Hintersdorf,Felix Friedrich,Manuel Brack,Patrick Schramowski,Kristian Kersting
発行日 2023-02-13 18:54:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.CY, cs.LG パーマリンク