Leveraging Large Language Models to Measure Gender Representation Bias in Gendered Language Corpora

要約

大規模な言語モデル(LLM)は、多くの場合、トレーニングデータに埋め込まれた社会的バイアスを継承して増幅します。
著名な社会的偏見は、性別バイアスです。
この点で、以前の研究は、主に性別のステレオタイプ化バイアス(特定の役割または特性と特定の性別の関連)に焦点を当てており、英語で、モデルの埋め込みまたは生成された出力における性別バイアスの評価に焦点を当てています。
対照的に、性別の表現バイアス – 異なる性別の個人への参照の不平等な頻度 – トレーニングコーポラはあまり注目されていません。
しかし、トレーニングデータのこのような不均衡は、モデルライフサイクル全体で伝播し、強化できるバイアスの上流のソースを構成します。
このギャップを埋めるために、ジェンダー言語のLLMトレーニングデータにおけるジェンダー表現バイアスを検出および定量化するための新しいLLMベースの方法を提案します。
LLMSのコンテキスト理解を活用することにより、私たちのアプローチは、性別の言語コーポラの単語を自動的に識別および分類します。
4つのスペイン語と英語のベンチマークと5つのバレンシアのコーパラに適用されるこの方法は、実質的な男性優位の不均衡を明らかにしています。
トレーニングデータのこのようなバイアスはモデルの出力に影響を与えるが、驚くべきことに、反対の性別に偏っているデータセットの小規模なトレーニングを活用することを緩和することができることを示します。
私たちの調査結果は、多言語NLPにおけるコーパスレベルのジェンダーバイアス分析の必要性を強調しています。
コードとデータを公開しています。

要約(オリジナル)

Large language models (LLMs) often inherit and amplify social biases embedded in their training data. A prominent social bias is gender bias. In this regard, prior work has mainly focused on gender stereotyping bias – the association of specific roles or traits with a particular gender – in English and on evaluating gender bias in model embeddings or generated outputs. In contrast, gender representation bias – the unequal frequency of references to individuals of different genders – in the training corpora has received less attention. Yet such imbalances in the training data constitute an upstream source of bias that can propagate and intensify throughout the entire model lifecycle. To fill this gap, we propose a novel LLM-based method to detect and quantify gender representation bias in LLM training data in gendered languages, where grammatical gender challenges the applicability of methods developed for English. By leveraging the LLMs’ contextual understanding, our approach automatically identifies and classifies person-referencing words in gendered language corpora. Applied to four Spanish-English benchmarks and five Valencian corpora, our method reveals substantial male-dominant imbalances. We show that such biases in training data affect model outputs, but can surprisingly be mitigated leveraging small-scale training on datasets that are biased towards the opposite gender. Our findings highlight the need for corpus-level gender bias analysis in multilingual NLP. We make our code and data publicly available.

arxiv情報

著者 Erik Derner,Sara Sansalvador de la Fuente,Yoan Gutiérrez,Paloma Moreda,Nuria Oliver
発行日 2025-06-17 17:06:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク