The Impact of Unstated Norms in Bias Analysis of Language Models

要約

大規模言語モデル (LLM) におけるバイアスには、明白な差別から暗黙のステレオタイプまで、さまざまな形があります。
反事実バイアス評価は、バイアスを定量化するために広く使用されているアプローチであり、多くの場合、グループのメンバーシップを明示的に示すテンプレートベースのプローブに依存します。
これは、LLM によって実行されたタスクの結果が、グループ メンバーシップの変更に対して不変であるかどうかを測定します。
この研究では、テンプレートベースのプローブが非現実的なバイアス測定につながる可能性があることがわかりました。
たとえば、LLM は他のグループよりも高い割合で、白人人種に関連するテキストを誤ってネガティブなものとしてキャストするようです。
私たちは、これが、LLM の事前訓練テキスト (例: 黒人大統領 vs 大統領) とバイアス測定に使用されるテンプレート (例: 黒人大統領 vs 白人大統領) における、一般的に明言されていない規範 (顕著性の形) の不一致によって人為的に生じていると仮説を立てています。
)。
この調査結果は、反事実バイアスの定量化における明示的な言及を通じて、グループのメンバーシップの変化が誤解を招く可能性のある影響を浮き彫りにしています。

要約(オリジナル)

Bias in large language models (LLMs) has many forms, from overt discrimination to implicit stereotypes. Counterfactual bias evaluation is a widely used approach to quantifying bias and often relies on template-based probes that explicitly state group membership. It measures whether the outcome of a task, performed by an LLM, is invariant to a change of group membership. In this work, we find that template-based probes can lead to unrealistic bias measurements. For example, LLMs appear to mistakenly cast text associated with White race as negative at higher rates than other groups. We hypothesize that this arises artificially via a mismatch between commonly unstated norms, in the form of markedness, in the pretraining text of LLMs (e.g., Black president vs. president) and templates used for bias measurement (e.g., Black president vs. White president). The findings highlight the potential misleading impact of varying group membership through explicit mention in counterfactual bias quantification.

arxiv情報

著者 Farnaz Kohankhaki,D. B. Emerson,Jacob-Junqi Tian,Laleh Seyyed-Kalantari,Faiza Khan Khattak
発行日 2024-09-27 13:12:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, cs.CY, cs.LG パーマリンク