Measuring Implicit Bias in Explicitly Unbiased Large Language Models

要約

大規模言語モデル (LLM) は、明示的な社会的バイアス テストに合格する可能性がありますが、依然として暗黙的なバイアスを抱えています。これは、平等主義の信念を支持しながらも微妙なバイアスを示す人間と同様です。
このような暗黙的なバイアスを測定することは、課題になる可能性があります。LLM の独自性が高まるにつれて、その埋め込みにアクセスして既存のバイアス測定を適用することができなくなる可能性があります。
さらに、暗黙のバイアスがこれらのシステムが行う実際の決定に影響を与える場合、主に懸念されます。
私たちは、バイアスに関する 2 つの新しい尺度を導入することで両方の課題に対処します。LLM 暗黙的バイアス。暗黙的なバイアスを明らかにするためのプロンプトベースの方法です。
LLM 意思決定バイアスは、意思決定タスクにおける微妙な差別を検出する戦略です。
どちらの尺度も心理学研究に基づいています。LLM 暗黙的バイアスは、人間の心の中にある概念間の自動連想を研究するために広く使用されている暗黙的連想テストを応用しています。
LLM 決定バイアスは、それぞれを独立して評価する絶対評価ではなく、2 人の候補間の相対評価の方が暗黙のバイアスをより診断できることを示す心理学的結果を操作します。
これらの尺度を使用して、21 のステレオタイプ (人種と犯罪、人種と武器、ジェンダーと科学、
年齢とネガティブさ)。
プロンプトベースの LLM 暗黙的バイアス測定は、既存の言語モデル埋め込みベースのバイアス手法と相関していますが、LLM 決定バイアスによって測定される下流の動作をよりよく予測します。
これらの新しいプロンプトベースの測定は、純粋に観察可能な行動に基づいて固定観念のバイアスを測定するという心理学の長い研究の歴史に基づいています。
標準ベンチマークによれば偏っていないように見える、独自の価値に合わせた LLM の微妙な偏りを暴露します。

要約(オリジナル)

Large language models (LLMs) can pass explicit social bias tests but still harbor implicit biases, similar to humans who endorse egalitarian beliefs yet exhibit subtle biases. Measuring such implicit biases can be a challenge: as LLMs become increasingly proprietary, it may not be possible to access their embeddings and apply existing bias measures; furthermore, implicit biases are primarily a concern if they affect the actual decisions that these systems make. We address both challenges by introducing two new measures of bias: LLM Implicit Bias, a prompt-based method for revealing implicit bias; and LLM Decision Bias, a strategy to detect subtle discrimination in decision-making tasks. Both measures are based on psychological research: LLM Implicit Bias adapts the Implicit Association Test, widely used to study the automatic associations between concepts held in human minds; and LLM Decision Bias operationalizes psychological results indicating that relative evaluations between two candidates, not absolute evaluations assessing each independently, are more diagnostic of implicit biases. Using these measures, we found pervasive stereotype biases mirroring those in society in 8 value-aligned models across 4 social categories (race, gender, religion, health) in 21 stereotypes (such as race and criminality, race and weapons, gender and science, age and negativity). Our prompt-based LLM Implicit Bias measure correlates with existing language model embedding-based bias methods, but better predicts downstream behaviors measured by LLM Decision Bias. These new prompt-based measures draw from psychology’s long history of research into measuring stereotype biases based on purely observable behavior; they expose nuanced biases in proprietary value-aligned LLMs that appear unbiased according to standard benchmarks.

arxiv情報

著者 Xuechunzi Bai,Angelina Wang,Ilia Sucholutsky,Thomas L. Griffiths
発行日 2024-05-23 15:50:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク