Testing Occupational Gender Bias in Language Models: Towards Robust Measurement and Zero-Shot Debiasing

要約

大規模言語モデル (LLM) から生成されたテキストは、さまざまな人口統計に対して有害で人間に似たさまざまなバイアスを示すことが示されています。
これらの発見は、そのような効果を理解して測定することを目的とした研究活動の動機付けとなります。
これまでの研究では、これらの固定的な関連性を特定するためのベンチマークと軽減するための技術が提案されてきました。
しかし、最近の研究で指摘されているように、既存のベンチマークには堅牢な実験設定が不足しており、評価指標から有意義な結論を推論することが妨げられています。
この論文では、生成言語モデルのバイアスをロバストに測定するための要望のリストを紹介します。
これらの設計原則に基づいて、職業上の性別による偏見を調査するためのバイアス測定手順を備えた OCCUGENDER と呼ばれるベンチマークを提案します。
次に、このベンチマークを使用して、Llama、Mistral、およびそれらの命令調整バージョンを含むいくつかの最先端のオープンソース LLM をテストします。
結果は、これらのモデルが職業上の性別によるかなりの偏りを示していることを示しています。
さらに、微調整を必要とせずにこれらのバイアスを軽減するためのプロンプト手法を提案します。
最後に、同じモデルのセットでの実験を通じて手法の有効性を検証します。

要約(オリジナル)

Generated texts from large language models (LLMs) have been shown to exhibit a variety of harmful, human-like biases against various demographics. These findings motivate research efforts aiming to understand and measure such effects. Prior works have proposed benchmarks for identifying and techniques for mitigating these stereotypical associations. However, as recent research pointed out, existing benchmarks lack a robust experimental setup, hindering the inference of meaningful conclusions from their evaluation metrics. In this paper, we introduce a list of desiderata for robustly measuring biases in generative language models. Building upon these design principles, we propose a benchmark called OCCUGENDER, with a bias-measuring procedure to investigate occupational gender bias. We then use this benchmark to test several state-of-the-art open-source LLMs, including Llama, Mistral, and their instruction-tuned versions. The results show that these models exhibit substantial occupational gender bias. We further propose prompting techniques to mitigate these biases without requiring fine-tuning. Finally, we validate the effectiveness of our methods through experiments on the same set of models.

arxiv情報

著者 Yuen Chen,Vethavikashini Chithrra Raghuram,Justus Mattern,Mrinmaya Sachan,Rada Mihalcea,Bernhard Schölkopf,Zhijing Jin
発行日 2024-07-15 15:10:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク