GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models

要約

大規模言語モデル (LLM) は、自然言語生成において顕著な能力を示していますが、社会的偏見、特にジェンダーに関連する偏見を拡大することも観察されています。
この問題に対応して、LLM におけるジェンダーバイアスを評価するためのいくつかのベンチマークが提案されています。
ただし、これらのベンチマークは実際的な柔軟性に欠けていたり、誤ってバイアスが生じたりすることがよくあります。
これらの欠点に対処するために、私たちは、LLM におけるジェンダーバイアスを定量化し、軽減するための革新的な基準、バイアス評価、削減技術、評価指標を含む包括的なフレームワークである GenderCARE を導入します。
まず、包括性、多様性、説明可能性、客観性、堅牢性、現実性などの側面にわたる男女平等ベンチマークの先駆的な基準を確立します。
これらの基準に基づいて、LLM におけるジェンダーバイアスを包括的に評価するために設計された新しいペアベースのベンチマークである GenderPair を構築します。
私たちのベンチマークは、トランスジェンダーやノンバイナリーの個人など、これまで見過ごされてきたジェンダーグループを含む、標準化された現実的な評価を提供します。
さらに、私たちは、LLM の全体的なパフォーマンスを損なうことなく、LLM のジェンダーバイアスを軽減するために、反事実データの増強と特殊な微調整戦略を組み込んだ効果的なバイアス除去手法を開発します。
広範な実験により、さまざまなジェンダーバイアスのベンチマークが大幅に減少することが実証されており、17 の異なる LLM での減少はピークで 90% 以上、平均で 35% 以上でした。
重要なのは、これらの削減は、主流の言語タスクにおける変動が最小限であり、2% 未満にとどまっていることです。
現実的な評価とジェンダーバイアスの個別の軽減を提供することで、私たちの GenderCARE が LLM の公平性と公平性の達成に向けた重要な一歩となることを願っています。
詳細については、https://github.com/kstanghere/GenderCARE-ccs24 をご覧ください。

要約(オリジナル)

Large language models (LLMs) have exhibited remarkable capabilities in natural language generation, but they have also been observed to magnify societal biases, particularly those related to gender. In response to this issue, several benchmarks have been proposed to assess gender bias in LLMs. However, these benchmarks often lack practical flexibility or inadvertently introduce biases. To address these shortcomings, we introduce GenderCARE, a comprehensive framework that encompasses innovative Criteria, bias Assessment, Reduction techniques, and Evaluation metrics for quantifying and mitigating gender bias in LLMs. To begin, we establish pioneering criteria for gender equality benchmarks, spanning dimensions such as inclusivity, diversity, explainability, objectivity, robustness, and realisticity. Guided by these criteria, we construct GenderPair, a novel pair-based benchmark designed to assess gender bias in LLMs comprehensively. Our benchmark provides standardized and realistic evaluations, including previously overlooked gender groups such as transgender and non-binary individuals. Furthermore, we develop effective debiasing techniques that incorporate counterfactual data augmentation and specialized fine-tuning strategies to reduce gender bias in LLMs without compromising their overall performance. Extensive experiments demonstrate a significant reduction in various gender bias benchmarks, with reductions peaking at over 90% and averaging above 35% across 17 different LLMs. Importantly, these reductions come with minimal variability in mainstream language tasks, remaining below 2%. By offering a realistic assessment and tailored reduction of gender biases, we hope that our GenderCARE can represent a significant step towards achieving fairness and equity in LLMs. More details are available at https://github.com/kstanghere/GenderCARE-ccs24.

arxiv情報

著者 Kunsheng Tang,Wenbo Zhou,Jie Zhang,Aishan Liu,Gelei Deng,Shuai Li,Peigui Qi,Weiming Zhang,Tianwei Zhang,Nenghai Yu
発行日 2024-08-22 15:35:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク