Debiasing Algorithm through Model Adaptation

要約

大規模な言語モデルは、さまざまな言語タスクにとって頼りになるソリューションになりつつあります。
ただし、容量が増大するにつれて、モデルはトレーニング データに存在するバイアスや固定観念に起因する偽の相関に依存する傾向があります。
この研究は、言語モデルにおけるジェンダーバイアスを検出し、軽減するための新しい方法を提案しています。
私たちは因果分析を実行して問題のあるモデル コンポーネントを特定し、中上位のフィードフォワード層がバイアスを伝達する傾向が最も高いことを発見しました。
解析結果に基づいて、これらの層に線形投影を乗算することでモデルを適応させます。
私たちの名高い手法である DAMA は、下流タスクでのモデルのパフォーマンスを維持しながら、さまざまな指標によって測定されるバイアスを大幅に減少させます。
私たちは、バイアスを大幅に軽減しながら LLaMA の最先端のパフォーマンスを再トレーニングするメソッドとモデルのコードをリリースします。

要約(オリジナル)

Large language models are becoming the go-to solution for various language tasks. However, with growing capacity, models are prone to rely on spurious correlations stemming from biases and stereotypes present in the training data. This work proposes a novel method for detecting and mitigating gender bias in language models. We perform causal analysis to identify problematic model components and discover that mid-upper feed-forward layers are most prone to convey biases. Based on the analysis results, we adapt the model by multiplying these layers by a linear projection. Our titular method, DAMA, significantly decreases bias as measured by diverse metrics while maintaining the model’s performance on downstream tasks. We release code for our method and models, which retrain LLaMA’s state-of-the-art performance while being significantly less biased.

arxiv情報

著者 Tomasz Limisiewicz,David Mareček,Tomáš Musil
発行日 2024-01-18 14:23:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, stat.ML パーマリンク