要約
大規模言語モデル (LLM) のトレーニングなど、さまざまな自然言語処理 (NLP) タスクに使用されるテキスト コーパスにおけるジェンダー バイアスは、社会的不平等の永続と拡大につながる可能性があります。
この現象は、文法構造が本質的に性別をエンコードしているスペイン語やフランス語などの性別言語で特に顕著であり、バイアス分析がより困難になります。
テキスト内のジェンダーバイアスを定量化する最初のステップでは、ジェンダー表現におけるバイアス、つまり男性と女性を指す単語の普及率の違いを計算する必要があります。
テキストコーパスにおけるジェンダー表現の偏りを測定する既存の方法は、主に英語に対して提案されており、英語とジェンダー言語の間には本質的な言語の違いがあるため、ジェンダー言語には一般化されません。
この論文では、LLM の文脈理解機能を活用して、スペイン語コーパスにおけるジェンダー表現の偏りを定量的に測定する新しい方法論を紹介します。
LLM を利用して、人間の実体への言及に関連して性別付きの名詞と代名詞を特定および分類することにより、私たちのアプローチは、性別付き言語における性別表現の偏りの堅牢な分析を提供します。
私たちは広く使用されている 4 つのベンチマーク データセットでこの方法を実証的に検証し、男性と女性の比率が 4:1 から 6:1 の範囲にある重大な男女有病率格差を明らかにしました。
これらの発見は、性差言語コーパスにおけるバイアス定量化のための私たちの方法論の価値を実証し、NLP への応用を示唆し、より公平な言語技術の開発に貢献します。
要約(オリジナル)
Gender bias in text corpora that are used for a variety of natural language processing (NLP) tasks, such as for training large language models (LLMs), can lead to the perpetuation and amplification of societal inequalities. This phenomenon is particularly pronounced in gendered languages like Spanish or French, where grammatical structures inherently encode gender, making the bias analysis more challenging. A first step in quantifying gender bias in text entails computing biases in gender representation, i.e., differences in the prevalence of words referring to males vs. females. Existing methods to measure gender representation bias in text corpora have mainly been proposed for English and do not generalize to gendered languages due to the intrinsic linguistic differences between English and gendered languages. This paper introduces a novel methodology that leverages the contextual understanding capabilities of LLMs to quantitatively measure gender representation bias in Spanish corpora. By utilizing LLMs to identify and classify gendered nouns and pronouns in relation to their reference to human entities, our approach provides a robust analysis of gender representation bias in gendered languages. We empirically validate our method on four widely-used benchmark datasets, uncovering significant gender prevalence disparities with a male-to-female ratio ranging from 4:1 to 6:1. These findings demonstrate the value of our methodology for bias quantification in gendered language corpora and suggest its application in NLP, contributing to the development of more equitable language technologies.
arxiv情報
著者 | Erik Derner,Sara Sansalvador de la Fuente,Yoan Gutiérrez,Paloma Moreda,Nuria Oliver |
発行日 | 2024-11-22 12:03:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google