Measuring Implicit Bias in Explicitly Unbiased Large Language Models

要約

大規模言語モデル (LLM) は、明示的なバイアス テストに合格する可能性がありますが、依然として暗黙のバイアスを抱えています。これは、平等主義の信念を支持しながらも微妙なバイアスを示す人間と同様です。
このような暗黙的なバイアスを測定することは、課題となる可能性があります。LLM の独自性が高まるにつれ、その埋め込みにアクセスして既存のバイアス測定を適用することができなくなる可能性があります。
さらに、暗黙のバイアスがこれらのシステムが行う実際の決定に影響を与える場合、主に懸念されます。
私たちは、心理学にヒントを得たバイアスの 2 つの尺度を導入することで、これらの課題の両方に対処します。LLM 暗黙的関連付けテスト (IAT) バイアス。暗黙的なバイアスを明らかにするためのプロンプトベースの方法です。
意思決定タスクにおける微妙な差別を検出するための LLM 意思決定バイアス。
これらの尺度を使用して、4 つの社会領域 (人種、性別、宗教、健康) と 21 のカテゴリ (特に武器、罪悪感、科学、キャリア) にわたる 6 つの LLM で、人間に似た固定観念の偏見が蔓延していることがわかりました。
私たちの暗黙的バイアスのプロンプトベースの測定は、埋め込みベースの手法と相関していますが、LLM 決定バイアスによって測定される下流の動作をよりよく予測します。
この尺度は、LLM に個人間の決定を求めることに基づいており、絶対的な評価ではなく相対的な評価が暗黙のバイアスに関連していることを示す心理学的結果に動機付けられています。
心理学に基づいたプロンプトベースの測定を使用することで、標準ベンチマークでは明示的なバイアスが示されない独自の LLM の微妙なバイアスや微妙な差別を効果的に明らかにすることができます。

要約(オリジナル)

Large language models (LLMs) can pass explicit bias tests but still harbor implicit biases, similar to humans who endorse egalitarian beliefs yet exhibit subtle biases. Measuring such implicit biases can be a challenge: as LLMs become increasingly proprietary, it may not be possible to access their embeddings and apply existing bias measures; furthermore, implicit biases are primarily a concern if they affect the actual decisions that these systems make. We address both of these challenges by introducing two measures of bias inspired by psychology: LLM Implicit Association Test (IAT) Bias, which is a prompt-based method for revealing implicit bias; and LLM Decision Bias for detecting subtle discrimination in decision-making tasks. Using these measures, we found pervasive human-like stereotype biases in 6 LLMs across 4 social domains (race, gender, religion, health) and 21 categories (weapons, guilt, science, career among others). Our prompt-based measure of implicit bias correlates with embedding-based methods but better predicts downstream behaviors measured by LLM Decision Bias. This measure is based on asking the LLM to decide between individuals, motivated by psychological results indicating that relative not absolute evaluations are more related to implicit biases. Using prompt-based measures informed by psychology allows us to effectively expose nuanced biases and subtle discrimination in proprietary LLMs that do not show explicit bias on standard benchmarks.

arxiv情報

著者 Xuechunzi Bai,Angelina Wang,Ilia Sucholutsky,Thomas L. Griffiths
発行日 2024-02-06 15:59:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク