CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models

要約

さまざまな自然言語処理 (NLP) タスクを処理するために大規模言語モデル (LLM) の導入が進むにつれて、LLM で生成されたコンテンツが社会に悪影響を与える可能性に関する懸念も生じています。
LLM によって示されるバイアスを評価するために、研究者は最近、さまざまなデータセットを提案しています。
ただし、既存のバイアス評価の取り組みでは、特定の種類のバイアスのみに焦点を当て、一貫性のない評価指標を採用していることが多く、異なるデータセットや LLM 間での比較が困難になります。
これらの制限に対処するために、私たちは LLM のバイアス評価用に設計されたさまざまなデータセットを収集し、さらに、さまざまな社会グループやタスクにわたるさまざまなタイプのバイアスをカバーする構成評価ベンチマークである CEB を提案します。
CEB のキュレーションは、バイアスの種類、社会グループ、タスクの 3 つの側面から各データセットを特徴付ける、新しく提案された構成分類法に基づいています。
3 つの側面を組み合わせることで、LLM の偏りに対する包括的な評価戦略を開発します。
私たちの実験は、バイアスのレベルがこれらの側面にわたって異なることを実証しており、それによって特定のバイアス緩和方法の開発に指針を提供します。

要約(オリジナル)

As Large Language Models (LLMs) are increasingly deployed to handle various natural language processing (NLP) tasks, concerns regarding the potential negative societal impacts of LLM-generated content have also arisen. To evaluate the biases exhibited by LLMs, researchers have recently proposed a variety of datasets. However, existing bias evaluation efforts often focus on only a particular type of bias and employ inconsistent evaluation metrics, leading to difficulties in comparison across different datasets and LLMs. To address these limitations, we collect a variety of datasets designed for the bias evaluation of LLMs, and further propose CEB, a Compositional Evaluation Benchmark that covers different types of bias across different social groups and tasks. The curation of CEB is based on our newly proposed compositional taxonomy, which characterizes each dataset from three dimensions: bias types, social groups, and tasks. By combining the three dimensions, we develop a comprehensive evaluation strategy for the bias in LLMs. Our experiments demonstrate that the levels of bias vary across these dimensions, thereby providing guidance for the development of specific bias mitigation methods.

arxiv情報

著者 Song Wang,Peng Wang,Tong Zhou,Yushun Dong,Zhen Tan,Jundong Li
発行日 2024-07-02 16:31:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク