要約
NLPの公平性研究の目標の1つは、NLPシステムによって伝播されるステレオタイプのバイアスを測定して軽減することです。
ただし、そのような作業は、単一のバイアス(ほとんどの場合、性別)と英語に焦点を当てる傾向があります。
これらの制限に対処するために、大規模な言語モデルによって生成される職業の推奨事項に焦点を当てて、多言語交差国と性別のバイアスの最初の研究を貢献します。
25か国と4つの代名詞セットを使用して、英語、スペイン語、ドイツ語でプロンプトのベンチマークを構築します。
次に、このベンチマークで5つのラマベースのモデルのスイートを評価し、LLMSが重要な性別と国のバイアスをエンコードしていることを発見しました。
特に、モデルが性別または国のパリティを個別に示す場合でも、国と性別の両方に基づいた交差職業的偏見が続くことがわかります。
また、プロンプト言語がバイアスに大きく影響し、命令調整モデルが一貫して最も低く安定したバイアスを実証することを示しています。
私たちの調査結果は、公平性の研究者が仕事で交差レンズと多言語のレンズを使用する必要性を強調しています。
要約(オリジナル)
One of the goals of fairness research in NLP is to measure and mitigate stereotypical biases that are propagated by NLP systems. However, such work tends to focus on single axes of bias (most often gender) and the English language. Addressing these limitations, we contribute the first study of multilingual intersecting country and gender biases, with a focus on occupation recommendations generated by large language models. We construct a benchmark of prompts in English, Spanish and German, where we systematically vary country and gender, using 25 countries and four pronoun sets. Then, we evaluate a suite of 5 Llama-based models on this benchmark, finding that LLMs encode significant gender and country biases. Notably, we find that even when models show parity for gender or country individually, intersectional occupational biases based on both country and gender persist. We also show that the prompting language significantly affects bias, and instruction-tuned models consistently demonstrate the lowest and most stable levels of bias. Our findings highlight the need for fairness researchers to use intersectional and multilingual lenses in their work.
arxiv情報
著者 | Elisa Forcada Rodríguez,Olatz Perez-de-Viñaspre,Jon Ander Campos,Dietrich Klakow,Vagrant Gautam |
発行日 | 2025-05-05 08:40:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google