The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models

要約

事前トレーニングされた言語モデル (PLM) には、社会に悪影響を及ぼしたり、適用時に壊滅的な結果をもたらす可能性がある社会的偏見などの有害な情報が含まれていることが認識されています。
この問題に関するこれまでの研究は、モデルの出力を観察することによって PLM の社会的バイアスを検出および定量化するプローブなどのブラックボックス手法を使用することに主に焦点を当てていました。
結果として、これまでのバイアス解消手法は主に、新しく構築された反定型データセットに基づいて言語モデルを微調整したり、事前にトレーニングしたりしていましたが、これは高コストでした。
この研究では、{\sc ソーシャル バイアス ニューロン} の概念を導入することで、言語モデル内の社会的バイアスの謎を明らかにしようとします。
具体的には、社会的偏見などの望ましくない行動に起因する可能性のある言語モデル内のユニット (つまり、ニューロン) を正確に特定するための {\sc Integrated Gap Gradients (IG$^2$)} を提案します。
望ましくない行動を言語の分布特性として形式化することで、感情を伴うプロンプトを使用して、そのような感情と相関する敏感な単語のクラス(人口統計)を引き出します。
したがって、私たちの IG$^2$ は、相互運用性を実現するために PLM ユニット内の望ましくない動作の痕跡を追跡する特定のソーシャル バイアス ニューロンが、さまざまな人口統計の不均一な分布の原因であると考えます。
さらに、私たちの解釈可能な技術から派生した、社会的偏見を軽減するために、{\sc バイアス ニューロン抑制 (BNS)} がさらに提案されています。
BERT、RoBERTa、およびそれらに起因する偏りを解消したFairBERTaとの違いを研究することで、IG$^2$ を使用すると、特定されたニューロンを特定して抑制し、望ましくない行動をさらに軽減することができます。
StereoSet からの以前のメトリックによって測定されたように、私たちのモデルは、低コストで言語モデリング機能を維持しながら、より高度な公平性を実現します。

要約(オリジナル)

Pre-trained Language models (PLMs) have been acknowledged to contain harmful information, such as social biases, which may cause negative social impacts or even bring catastrophic results in application. Previous works on this problem mainly focused on using black-box methods such as probing to detect and quantify social biases in PLMs by observing model outputs. As a result, previous debiasing methods mainly finetune or even pre-train language models on newly constructed anti-stereotypical datasets, which are high-cost. In this work, we try to unveil the mystery of social bias inside language models by introducing the concept of {\sc Social Bias Neurons}. Specifically, we propose {\sc Integrated Gap Gradients (IG$^2$)} to accurately pinpoint units (i.e., neurons) in a language model that can be attributed to undesirable behavior, such as social bias. By formalizing undesirable behavior as a distributional property of language, we employ sentiment-bearing prompts to elicit classes of sensitive words (demographics) correlated with such sentiments. Our IG$^2$ thus attributes the uneven distribution for different demographics to specific Social Bias Neurons, which track the trail of unwanted behavior inside PLM units to achieve interoperability. Moreover, derived from our interpretable technique, {\sc Bias Neuron Suppression (BNS)} is further proposed to mitigate social biases. By studying BERT, RoBERTa, and their attributable differences from debiased FairBERTa, IG$^2$ allows us to locate and suppress identified neurons, and further mitigate undesired behaviors. As measured by prior metrics from StereoSet, our model achieves a higher degree of fairness while maintaining language modeling ability with low cost.

arxiv情報

著者 Yan Liu,Yu Liu,Xiaokang Chen,Pin-Yu Chen,Daoguang Zan,Min-Yen Kan,Tsung-Yi Ho
発行日 2024-06-14 15:41:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク