要約
ジェンダーバイアス研究は、大規模な言語モデルにおける望ましくない行動を明らかにし、職業や感情に関連する深刻なジェンダー固定観念を明らかにする上で極めて重要です。
これまでの研究における重要な観察は、トレーニング データに存在する性別相関の結果として、モデルが固定観念を強化するということです。
この論文では、トレーニング データの効果が不明瞭なバイアスに焦点を当て、代わりに「言語モデルは非定型的な設定でもジェンダー バイアスを示すのか?」という質問に取り組みます。
そのために、ステレオタイプのないシナリオでジェンダーバイアスを調査するために調整された新しいフレームワークである UnStereoEval (USE) を紹介します。
USE は、事前トレーニング データ統計に基づいて文レベルのスコアを定義し、文に最小限の単語と性別の関連性が含まれているかどうかを判断します。
ステレオタイプのないシナリオで一般的な言語モデルの公平性を体系的にベンチマークするために、USE を利用して、性別に関連する言語を使用せずにベンチマークを自動的に生成します。
USE の文レベルのスコアを活用することで、以前のジェンダー バイアス ベンチマーク (Winobias と Winogender) を非定型評価に再利用します。
驚くべきことに、テストした 28 モデルすべてで公平性が低いことがわかりました。
具体的には、モデルはステレオタイプのない文の 9% ~ 41% でのみ公正な動作を示しており、偏見がジェンダー関連の単語の存在だけから生じているわけではないことを示唆しています。
これらの結果は、根底にあるモデルのバイアスがどこから来るのかについて重要な疑問を提起し、より体系的かつ包括的なバイアス評価の必要性を浮き彫りにしています。
完全なデータセットとコードは https://ucinlp.github.io/unstereo-eval でリリースされています。
要約(オリジナル)
Gender bias research has been pivotal in revealing undesirable behaviors in large language models, exposing serious gender stereotypes associated with occupations, and emotions. A key observation in prior work is that models reinforce stereotypes as a consequence of the gendered correlations that are present in the training data. In this paper, we focus on bias where the effect from training data is unclear, and instead address the question: Do language models still exhibit gender bias in non-stereotypical settings? To do so, we introduce UnStereoEval (USE), a novel framework tailored for investigating gender bias in stereotype-free scenarios. USE defines a sentence-level score based on pretraining data statistics to determine if the sentence contain minimal word-gender associations. To systematically benchmark the fairness of popular language models in stereotype-free scenarios, we utilize USE to automatically generate benchmarks without any gender-related language. By leveraging USE’s sentence-level score, we also repurpose prior gender bias benchmarks (Winobias and Winogender) for non-stereotypical evaluation. Surprisingly, we find low fairness across all 28 tested models. Concretely, models demonstrate fair behavior in only 9%-41% of stereotype-free sentences, suggesting that bias does not solely stem from the presence of gender-related words. These results raise important questions about where underlying model biases come from and highlight the need for more systematic and comprehensive bias evaluation. We release the full dataset and code at https://ucinlp.github.io/unstereo-eval.
arxiv情報
著者 | Catarina G Belém,Preethi Seshadri,Yasaman Razeghi,Sameer Singh |
発行日 | 2024-05-01 15:51:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google