要約
近年、テキスト入力に基づき高品質な画像を生成できるText-to-imageモデルが、様々なコンテンツ作成ツールに搭載されるようになりました。しかし、これらの生成された画像の分布、特に異なる性別の潜在的なステレオタイプ属性については、幅広い用途に大きな影響を与えるにもかかわらず、まだ十分に理解されていない。本研究では、テキストから画像への変換モデルにおいて、性別がどのように異なって表現されるかを研究するために、きめ細かい自己表現属性を利用したパラダイム(Gender Presentation Differences)を提案する。入力テキスト中の性別指標(例:’a woman’ or ‘a man’ )をプローブすることにより、人間のアノテーションを通じて提示中心の属性(例:’a shirt’ and ‘a dress’ )の頻度差を定量化し、新しいメトリックを導入している。GEPを導入する。さらに、そのような差異を推定する自動的な方法を提案する。我々のアプローチに基づく自動GEP指標は、既存のCLIPスコアに基づく指標よりも人間のアノテーションと高い相関を示し、3つの最先端のテキストから画像へのモデルにおいて一貫して高い相関を示した。最後に、職業に関連するジェンダーステレオタイプの文脈で、我々のメトリックの一般化能力を実証する。
要約(オリジナル)
Text-to-image models, which can generate high-quality images based on textual input, have recently enabled various content-creation tools. Despite significantly affecting a wide range of downstream applications, the distributions of these generated images are still not fully understood, especially when it comes to the potential stereotypical attributes of different genders. In this work, we propose a paradigm (Gender Presentation Differences) that utilizes fine-grained self-presentation attributes to study how gender is presented differently in text-to-image models. By probing gender indicators in the input text (e.g., ‘a woman’ or ‘a man’), we quantify the frequency differences of presentation-centric attributes (e.g., ‘a shirt’ and ‘a dress’) through human annotation and introduce a novel metric: GEP. Furthermore, we propose an automatic method to estimate such differences. The automatic GEP metric based on our approach yields a higher correlation with human annotations than that based on existing CLIP scores, consistently across three state-of-the-art text-to-image models. Finally, we demonstrate the generalization ability of our metrics in the context of gender stereotypes related to occupations.
arxiv情報
著者 | Yanzhe Zhang,Lu Jiang,Greg Turk,Diyi Yang |
発行日 | 2023-02-08 01:55:54+00:00 |
arxivサイト | arxiv_id(pdf) |