要約
大規模言語モデル (LLM) は、人間の好みを含む事実と人間の認知を学習するために、広範なコーパスで事前トレーニングされています。
ただし、このプロセスにより、これらのモデルが社会に蔓延する偏見や固定観念を誤って獲得してしまう可能性があります。
これまでの研究は通常、偏見を特定するか軽減することに重点を置き、一次元の観点から偏見の問題に取り組んできました。
この限られた視点は、相互に相乗的に補完し、徐々に構築していくバイアスに関する研究を促進する際に障害を生み出しています。
この研究では、偏見を特定して軽減するプロセスを統一フレームワーク内に統合します。
最初に、因果媒介分析を使用して、大規模な言語モデル内のさまざまなコンポーネントの活性化の因果効果を追跡します。
これに基づいて、職業代名詞における性別バイアスを軽減するための知識編集ベースの方法である LSDM (最小二乗デバイアス法) を提案し、それを 3 つの性別バイアス データセットと 7 つの知識能力テスト データセットの 2 つのベースラインと比較します。
実験結果は、ジェンダーバイアスの主な原因は、職業代名詞の最後のトークンに作用する下部の MLP モジュールと、文内の最後の単語に作用する上部の注意モジュールであることを示しています。
さらに、LSDM は、他のすべての側面でモデルの機能を完全に維持しながら、他のベースラインよりも効果的にモデル内のジェンダーバイアスを軽減します。
要約(オリジナル)
Large language models(LLM) are pre-trained on extensive corpora to learn facts and human cognition which contain human preferences. However, this process can inadvertently lead to these models acquiring biases and stereotypes prevalent in society. Prior research has typically tackled the issue of bias through a one-dimensional perspective, concentrating either on locating or mitigating it. This limited perspective has created obstacles in facilitating research on bias to synergistically complement and progressively build upon one another. In this study, we integrate the processes of locating and mitigating bias within a unified framework. Initially, we use causal mediation analysis to trace the causal effects of different components’ activation within a large language model. Building on this, we propose the LSDM (Least Square Debias Method), a knowledge-editing based method for mitigating gender bias in occupational pronouns, and compare it against two baselines on three gender bias datasets and seven knowledge competency test datasets. The experimental results indicate that the primary contributors to gender bias are the bottom MLP modules acting on the last token of occupational pronouns and the top attention module acting on the final word in the sentence. Furthermore, LSDM mitigates gender bias in the model more effectively than the other baselines, while fully preserving the model’s capabilities in all other aspects.
arxiv情報
著者 | Yuchen Cai,Ding Cao,Rongxi Guo,Yaqin Wen,Guiquan Liu,Enhong Chen |
発行日 | 2024-03-21 13:57:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google