Reevaluating Bias Detection in Language Models: The Role of Implicit Norm

要約

膨大なデータセットを用いて学習される大規模言語モデル(LLM)は、あからさまな差別から暗黙のステレオタイプまで、様々な形で現れるバイアスを抱え込む可能性がある。バイアスの1つの側面は、LLMの性能格差であり、多くの場合、人種的マイノリティなどの恵まれないグループに害を及ぼす。バイアスを定量化するための一般的なアプローチは、テンプレートベースのバイアス・プローブを使用することである。これは、グループ・メンバーシップ(例えば白人)を明示し、例えばセンチメント分析などのタスクの結果が、グループ・メンバーシップの変更(例えば白人の人種を黒人に変更)に対して不変であるかどうかを評価するものである。このアプローチはバイアスの定量化に広く使われている。しかし、本研究では、テンプレートに基づくプローブをLLMバイアスの定量化に使用することで、意外にも見過ごされている結果を発見した。その結果、白人に関連するテキスト例は、否定的な感情を示す割合が高いように分類されることがわかった。このシナリオは、LLMの事前学習テキストと、明示的な記述なしにグループへの帰属を示唆する非明示的規範である報告バイアスを通じてバイアスを測定するために使用されるテンプレートとのミスマッチによって人為的に生じたものであるという仮説を立てた。我々の発見は、バイアスの定量化において、明示的な言及によってグループメンバーシップを変化させることが誤解を招く可能性があることを強調している。

要約(オリジナル)

Large language models (LLMs), trained on vast datasets, can carry biases that manifest in various forms, from overt discrimination to implicit stereotypes. One facet of bias is performance disparities in LLMs, often harming underprivileged groups, such as racial minorities. A common approach to quantifying bias is to use template-based bias probes, which explicitly state group membership (e.g. White) and evaluate if the outcome of a task, sentiment analysis for instance, is invariant to the change of group membership (e.g. change White race to Black). This approach is widely used in bias quantification. However, in this work, we find evidence of an unexpectedly overlooked consequence of using template-based probes for LLM bias quantification. We find that in doing so, text examples associated with White ethnicities appear to be classified as exhibiting negative sentiment at elevated rates. We hypothesize that the scenario arises artificially through a mismatch between the pre-training text of LLMs and the templates used to measure bias through reporting bias, unstated norms that imply group membership without explicit statement. Our finding highlights the potential misleading impact of varying group membership through explicit mention in bias quantification

arxiv情報

著者 Farnaz Kohankhaki,Jacob-Junqi Tian,David Emerson,Laleh Seyyed-Kalantari,Faiza Khan Khattak
発行日 2024-04-04 14:24:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CY, cs.LG パーマリンク