要約
言語モデルは、トレーニング データから社会的バイアスを継承することがよくあります。
事前トレーニング段階と微調整段階の両方でこれらのバイアスを軽減するために、数多くの手法が提案されています。
ただし、下流タスクで事前トレーニング済みのバイアスを除去した言語モデルを微調整すると、モデルにバイアスが再導入される可能性があります。
さらに、下流のタスクに対する既存のバイアス緩和手法は、(i) 多くの場合利用できない保護された属性 (年齢、人種、政治的見解など) のラベルを必要とするか、(ii) バイアスの指標に依存しているため、ジェンダー緩和への適用が制限されています。
なぜなら、彼らは性別特有の言葉に依存しているからです。
これに対処するために、埋め込みのクラスごとの分散に基づいた新しいバイアス正則化手法を導入します。
重要なことは、私たちの方法は属性ラベルを必要とせず、あらゆる属性を対象とするため、既存のバイアス除去方法の欠点に対処できることです。
エンコーダ言語モデルと 3 つのデータセットに関する実験では、ターゲット タスクのパフォーマンスを維持しながら、ターゲット属性ラベルに依存する既存の強力なバイアス除去ベースラインよりも優れたパフォーマンスを示すことが実証されました。
要約(オリジナル)
Language models frequently inherit societal biases from their training data. Numerous techniques have been proposed to mitigate these biases during both the pre-training and fine-tuning stages. However, fine-tuning a pre-trained debiased language model on a downstream task can reintroduce biases into the model. Additionally, existing debiasing methods for downstream tasks either (i) require labels of protected attributes (e.g., age, race, or political views) that are often not available or (ii) rely on indicators of bias, which restricts their applicability to gender debiasing since they rely on gender-specific words. To address this, we introduce a novel debiasing regularization technique based on the class-wise variance of embeddings. Crucially, our method does not require attribute labels and targets any attribute, thus addressing the shortcomings of existing debiasing methods. Our experiments on encoder language models and three datasets demonstrate that our method outperforms existing strong debiasing baselines that rely on target attribute labels while maintaining performance on the target task.
arxiv情報
著者 | Shahed Masoudian,Markus Frohman,Navid Rekabsaz,Markus Schedl |
発行日 | 2024-10-01 08:30:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google