Debiasing Algorithm through Model Adaptation

要約

大規模な言語モデルは、増え続けるタスクの頼りになるソリューションになりつつあります。
ただし、容量が増大するにつれて、モデルはトレーニング データに存在するバイアスや固定観念に起因する偽の相関に依存する傾向があります。
この研究は、言語モデルにおけるジェンダーバイアスを検出し、軽減するための新しい方法を提案しています。
因果関係分析を実行して問題のあるモデル コンポーネントを特定し、中上位のフィードフォワード層が最もバイアスを伝えやすいことを発見しました。
解析結果に基づいて、これらのレイヤーの重み行列に線形投影を適用することでモデルに介入します。
私たちの名高い手法である DAMA は、下流タスクでのモデルのパフォーマンスを維持しながら、さまざまな指標によって測定されるバイアスを大幅に減少させます。
私たちは、バイアスを大幅に軽減しながら LLaMA の最先端のパフォーマンスを再トレーニングするメソッドとモデルのコードをリリースします。

要約(オリジナル)

Large language models are becoming the go-to solution for the ever-growing number of tasks. However, with growing capacity, models are prone to rely on spurious correlations stemming from biases and stereotypes present in the training data. This work proposes a novel method for detecting and mitigating gender bias in language models. We perform causal analysis to identify problematic model components and discover that mid-upper feed-forward layers are most prone to convey bias. Based on the analysis results, we intervene in the model by applying a linear projection to the weight matrices of these layers. Our titular method, DAMA, significantly decreases bias as measured by diverse metrics while maintaining the model’s performance on downstream tasks. We release code for our method and models, which retrain LLaMA’s state-of-the-art performance while being significantly less biased.

arxiv情報

著者 Tomasz Limisiewicz,David Mareček,Tomáš Musil
発行日 2024-03-15 16:39:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, stat.ML パーマリンク