要約
事前トレーニングされた大規模言語モデルに存在する社会的バイアスは、これらのモデルが無数の下流アプリケーションにバイアスを伝播し、特定の人々のグループに対して不公平になることが示されているため、重大な問題です。
これらのモデルを最初から大規模に再トレーニングするには時間と計算コストがかかるため、事前トレーニングされたモデルのバイアスを軽減するさまざまなアプローチがこれまでに提案されてきました。
現在の最先端のバイアス解消手法の大多数はトレーニング体制の変更に焦点を当てていますが、この論文では、事前トレーニング済みモデルのジェンダーバイアスを軽減するための強力かつシンプルな手法としてデータ介入戦略を提案します。
具体的には、わずか 10 個のバイアスを除去した (介入した) トレーニング例で事前トレーニング済みモデルを微調整することで、あらゆる性別を好む傾向が大幅に減少することを経験的に示しています。
私たちが提案した方法は、少数のトレーニング例しか必要としないため、数ショットのバイアス除去アプローチは実現可能性が高く、実用的です。
広範な実験を通じて、私たちのバイアス除去技術は、言語モデリング能力の損失を最小限に抑えながら、競合する最先端のベースラインよりも優れたパフォーマンスを発揮することを示しています。
要約(オリジナル)
Societal biases present in pre-trained large language models are a critical issue as these models have been shown to propagate biases in countless downstream applications, rendering them unfair towards specific groups of people. Since large-scale retraining of these models from scratch is both time and compute-expensive, a variety of approaches have been previously proposed that de-bias a pre-trained model. While the majority of current state-of-the-art debiasing methods focus on changes to the training regime, in this paper, we propose data intervention strategies as a powerful yet simple technique to reduce gender bias in pre-trained models. Specifically, we empirically show that by fine-tuning a pre-trained model on only 10 de-biased (intervened) training examples, the tendency to favor any gender is significantly reduced. Since our proposed method only needs a few training examples, our few-shot debiasing approach is highly feasible and practical. Through extensive experimentation, we show that our debiasing technique performs better than competitive state-of-the-art baselines with minimal loss in language modeling ability.
arxiv情報
著者 | Himanshu Thakur,Atishay Jain,Praneetha Vaddamanu,Paul Pu Liang,Louis-Philippe Morency |
発行日 | 2023-06-07 16:50:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google