要約
事前トレーニングされた言語モデルは公開されており、現実のさまざまなアプリケーションに合わせて常に微調整されています。
複雑な文脈情報を把握できるようになると、有害なバイアスがこれらのモデルにますます絡み合う可能性が高くなります。
この論文では、BERT モデルにおけるジェンダー バイアスを 2 つの主な貢献によって分析します。 まず、新しいバイアス尺度が導入され、バイアスを女性サンプル バージョンと男性サンプル バージョンのセンチメント評価の差として定義します。
次に、現実的な IMDB 映画分類器の例に対する BERT のバイアスを包括的に分析します。
トレーニング パイプラインの要素を体系的に変更することで、最終的なモデルのバイアスに対する影響について結論付けることができます。
9 つのトレーニング条件における 7 つの異なる公開 BERT モデル、つまり合計 63 のモデルが比較されます。
ほぼすべての状況で、重大なジェンダーバイアスが生じます。
結果は、反映されたバイアスがタスク固有のデータではなく、公開されている BERT モデルに由来していることを示しており、責任ある使用の重要性が強調されています。
要約(オリジナル)
Pretrained language models are publicly available and constantly finetuned for various real-life applications. As they become capable of grasping complex contextual information, harmful biases are likely increasingly intertwined with those models. This paper analyses gender bias in BERT models with two main contributions: First, a novel bias measure is introduced, defining biases as the difference in sentiment valuation of female and male sample versions. Second, we comprehensively analyse BERT’s biases on the example of a realistic IMDB movie classifier. By systematically varying elements of the training pipeline, we can conclude regarding their impact on the final model bias. Seven different public BERT models in nine training conditions, i.e. 63 models in total, are compared. Almost all conditions yield significant gender biases. Results indicate that reflected biases stem from public BERT models rather than task-specific data, emphasising the weight of responsible usage.
arxiv情報
著者 | Sophie Jentzsch,Cigdem Turan |
発行日 | 2023-06-27 08:36:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google