The Impact of Unstated Norms in Bias Analysis of Language Models

要約

大規模な言語モデル(LLM)のバイアスには、明白な差別から暗黙のステレオタイプまで、多くの形があります。
反事実的バイアス評価は、バイアスを定量化するために広く使用されているアプローチであり、多くの場合、グループメンバーシップを明示的に状態にするテンプレートベースのプローブに依存しています。
LLMによって実行されたタスクの結果が、グループメンバーシップの変更に不変であるかどうかを測定します。
この作業では、テンプレートベースのプローブが非現実的なバイアス測定につながる可能性があることがわかります。
たとえば、LLMSは、他のグループよりも高いレートでネガティブであると白い人種に関連付けられたテキストを誤ってキャストするように見えます。
これは、LLMS(たとえば、黒人大統領対大統領)およびバイアス測定に使用されるテンプレート(例:黒人対ホワイト大統領)のテキスト(例えば、黒人大統領対大統領)のテキスト(例:黒人対ホワイト大統領)の間の、一般的に述べられていない規範の間の不一致を介して人為的に発生すると仮定します。
調査結果は、反事実的バイアスの定量化における明示的な言及を通じて、さまざまなグループメンバーシップの潜在的な誤解を招く影響を強調しています。

要約(オリジナル)

Bias in large language models (LLMs) has many forms, from overt discrimination to implicit stereotypes. Counterfactual bias evaluation is a widely used approach to quantifying bias and often relies on template-based probes that explicitly state group membership. It measures whether the outcome of a task performed by an LLM is invariant to a change in group membership. In this work, we find that template-based probes can lead to unrealistic bias measurements. For example, LLMs appear to mistakenly cast text associated with White race as negative at higher rates than other groups. We hypothesize that this arises artificially via a mismatch between commonly unstated norms, in the form of markedness, in the pretraining text of LLMs (e.g., Black president vs. president) and templates used for bias measurement (e.g., Black president vs. White president). The findings highlight the potential misleading impact of varying group membership through explicit mention in counterfactual bias quantification.

arxiv情報

著者 Farnaz Kohankhaki,D. B. Emerson,Jacob-Junqi Tian,Laleh Seyyed-Kalantari,Faiza Khan Khattak
発行日 2025-02-27 15:11:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, cs.CY, cs.LG パーマリンク