Quantifying Gender Bias Towards Politicians in Cross-Lingual Language Models

要約

最近の研究では、大規模な事前トレーニング済み言語モデルが、自然言語で表現される社会的偏見を反映していることが実証されました。
本論文では、政治家に対するジェンダーバイアスに関する多言語研究を行うための言語モデルを精査する簡単な方法を紹介します。
私たちは、政治家の名前を囲む言語モデルによって生成された形容詞と動詞の使用状況を、性別の関数として定量化します。
この目的を達成するために、私たちは世界中の 25 万人の政治家の名前と性別を含むデータセットを厳選しました。
私たちの調査は、6 つの異なる言語モデリング アーキテクチャにわたる 7 つの言語で実施されました。
この結果は、政治家に対する事前トレーニングされた言語モデルのスタンスが、分析された言語によって大きく異なることを示しています。
「死亡」や「指定」などの一部の単語は男性政治家と女性政治家の両方に関連付けられていますが、「美しい」や「離婚」などのいくつかの特定の単語は主に女性政治家に関連付けられていることがわかりました。
最後に、これまでの発見とは異なり、私たちの研究は、大規模な言語モデルは小規模な言語モデルに比べて性別に大きく偏る傾向がないことを示唆しています。

要約(オリジナル)

Recent research has demonstrated that large pre-trained language models reflect societal biases expressed in natural language. The present paper introduces a simple method for probing language models to conduct a multilingual study of gender bias towards politicians. We quantify the usage of adjectives and verbs generated by language models surrounding the names of politicians as a function of their gender. To this end, we curate a dataset of 250k politicians worldwide, including their names and gender. Our study is conducted in seven languages across six different language modeling architectures. The results demonstrate that pre-trained language models’ stance towards politicians varies strongly across analyzed languages. We find that while some words such as dead, and designated are associated with both male and female politicians, a few specific words such as beautiful and divorced are predominantly associated with female politicians. Finally, and contrary to previous findings, our study suggests that larger language models do not tend to be significantly more gender-biased than smaller ones.

arxiv情報

著者 Karolina Stańczak,Sagnik Ray Choudhury,Tiago Pimentel,Ryan Cotterell,Isabelle Augenstein
発行日 2023-11-09 16:15:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, stat.ML パーマリンク