Projective Methods for Mitigating Gender Bias in Pre-trained Language Models

要約

NLP におけるジェンダーバイアスの緩和には、静的な単語の埋め込みのバイアスを軽減することに関連した長い歴史があります。
最近では、事前にトレーニングされた言語モデルのバイアスを軽減することに注目が移っています。
私たちは、単語埋め込み用に開発された最も単純な射影バイアス除去手法が、BERT の内部表現に適用された場合にどの程度役立つかを研究します。
射影法は実装が速く、少数の保存されたパラメーターを使用し、既存のモデル パラメーターを更新する必要はありません。
BERT の次文予測タスクによって測定される本質的なバイアスを軽減する方法と、微調整された場合に下流の設定で観察されるバイアスを軽減する方法の有効性を評価します。
この目的のために、本質的なバイアスを定量化するための人気のあるジェンダーバイアス評価テストの批判的な分析も提供し、その結果、強化されたテストセットと新しいバイアス尺度が得られます。
私たちは、射影法が本質的バイアスと下流バイアスの両方の軽減に効果的である可能性があるが、2 つの結果が必ずしも相関しているわけではないことを発見しました。
この発見は、言語モデリング タスクまたは次の文の予測に基づいた固有のバイアス テスト セットが、バイアスを軽減した言語モデルの開発における唯一のベンチマークであるべきではないという警告として機能します。

要約(オリジナル)

Mitigation of gender bias in NLP has a long history tied to debiasing static word embeddings. More recently, attention has shifted to debiasing pre-trained language models. We study to what extent the simplest projective debiasing methods, developed for word embeddings, can help when applied to BERT’s internal representations. Projective methods are fast to implement, use a small number of saved parameters, and make no updates to the existing model parameters. We evaluate the efficacy of the methods in reducing both intrinsic bias, as measured by BERT’s next sentence prediction task, and in mitigating observed bias in a downstream setting when fine-tuned. To this end, we also provide a critical analysis of a popular gender-bias assessment test for quantifying intrinsic bias, resulting in an enhanced test set and new bias measures. We find that projective methods can be effective at both intrinsic bias and downstream bias mitigation, but that the two outcomes are not necessarily correlated. This finding serves as a warning that intrinsic bias test sets, based either on language modeling tasks or next sentence prediction, should not be the only benchmark in developing a debiased language model.

arxiv情報

著者 Hillary Dawkins,Isar Nejadgholi,Daniel Gillis,Judi McCuaig
発行日 2024-03-27 17:49:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク