要約
大規模な言語モデル(LLM)は、多くの場合、トレーニングされているWebデータからバイアスを継承します。これには、ステレオタイプと偏見が含まれています。
これらのバイアスを評価および緩和するための現在の方法は、バイアスベンチマークデータセットに依存しています。
これらのベンチマークは、偏ったステートメントでLLMの動作を観察することにより、バイアスを測定します。
ただし、これらの声明には、提示しようとする状況の文脈上の考慮事項がありません。
これに対処するために、コンテキストの信頼性フレームワークを紹介します。このフレームワークは、表示されるさまざまなコンテキストを検討することにより、偏ったステートメントに対するモデルの堅牢性を評価します。
コンテキスト指向のバイアスインジケーターと評価スコア(Cobias)を開発して、異なるコンテキストにわたるモデルの動作の分散に基づいて、バイアスの検出における偏ったステートメントの信頼性を測定します。
メトリックを評価するために、コンテキスト情報を追加することにより、2つの既存のベンチマークデータセットから2,291のステレオタイプのステートメントを強化しました。
コビアスは、偏ったステートメントの文脈的信頼性に関する人間の判断と一致していることを示しています(Spearmanの$ \ rho = 0.65、p = 3.4 * 10^{-60} $)を使用して、バイアス緩和作業を支援する信頼できるベンチマークを作成できます。
要約(オリジナル)
Large Language Models (LLMs) often inherit biases from the web data they are trained on, which contains stereotypes and prejudices. Current methods for evaluating and mitigating these biases rely on bias-benchmark datasets. These benchmarks measure bias by observing an LLM’s behavior on biased statements. However, these statements lack contextual considerations of the situations they try to present. To address this, we introduce a contextual reliability framework, which evaluates model robustness to biased statements by considering the various contexts in which they may appear. We develop the Context-Oriented Bias Indicator and Assessment Score (COBIAS) to measure a biased statement’s reliability in detecting bias, based on the variance in model behavior across different contexts. To evaluate the metric, we augmented 2,291 stereotyped statements from two existing benchmark datasets by adding contextual information. We show that COBIAS aligns with human judgment on the contextual reliability of biased statements (Spearman’s $\rho = 0.65, p = 3.4 * 10^{-60}$) and can be used to create reliable benchmarks, which would assist bias mitigation works.
arxiv情報
著者 | Priyanshul Govil,Hemang Jain,Vamshi Krishna Bonagiri,Aman Chadha,Ponnurangam Kumaraguru,Manas Gaur,Sanorita Dey |
発行日 | 2025-05-16 17:00:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google