要約
言語モデルにおけるジェンダーバイアスは、社会正義を脅かすため、十分な注目を集めています。
ただし、現在のバイアス除去手法のほとんどは他のタスクでモデルのパフォーマンスを低下させますが、低下のメカニズムはまだ謎に包まれています。
我々は、言語モデルのジェンダーバイアスの 3 つの候補メカニズムを説明する理論的枠組みを提案します。
私たちは理論的フレームワークを使用して、現在のバイアス除去方法がパフォーマンス低下を引き起こす理由を説明します。
また、バイアス除去によってモデルのパフォーマンスが低下しない経路も発見しました。
さらに、性別による偏見を修正するための因果関係検出の微調整アプローチを開発します。
数値実験は、私たちの方法がパフォーマンスの低下を回避しながら性別による偏見を部分的に軽減するという二重の利益をもたらすことができることを示しています。
要約(オリジナル)
Gender bias in language models has attracted sufficient attention because it threatens social justice. However, most of the current debiasing methods degraded the model’s performance on other tasks while the degradation mechanism is still mysterious. We propose a theoretical framework explaining the three candidate mechanisms of the language model’s gender bias. We use our theoretical framework to explain why the current debiasing methods cause performance degradation. We also discover a pathway through which debiasing will not degrade the model performance. We further develop a causality-detection fine-tuning approach to correct gender bias. The numerical experiment demonstrates that our method is able to lead to double dividends: partially mitigating gender bias while avoiding performance degradation.
arxiv情報
著者 | Yiran Liu,Xiao Liu,Haotian Chen,Yang Yu |
発行日 | 2023-06-12 13:26:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google