BEADs: Bias Evaluation Across Domains

要約

大規模言語モデル (LLM) の最近の進歩により、自然言語処理 (NLP) アプリケーションが大幅に強化されました。
それにもかかわらず、これらのモデルはトレーニング データからバイアスを継承することがよくあります。
バイアス検出用のさまざまなデータセットが利用可能であるにもかかわらず、ほとんどは 1 つまたは 2 つの NLP タスク (通常は分類または評価) に限定されており、より広範囲の NLP タスクにわたる包括的な評価が不足しています。
このギャップに対処するために、テキスト分類、トークン分類、バイアスの定量化、良性言語の生成など、幅広い NLP タスクをサポートするように設計された Bias Evavals Across Domains BEADs データセットを導入します。
このペーパーの主な焦点は、スケーラビリティのために GPT4 によって注釈が付けられ、高い信頼性を保証するために専門家によって検証されたゴールド ラベル データセットです。
BEADs は、分類や言語生成タスクなどの微調整と、LLM の評価の両方のためのデータを提供します。
私たちの調査結果は、BEAD がこのデータセットを微調整すると、多くのバイアスを効果的に特定できることを示しています。
また、言語生成タスクの微調整に使用すると、言語の品質を維持しながらバイアスが軽減されます。
この結果は、人口統計タスクの評価に BEAD を使用した場合に、LLM に蔓延する人口統計のバイアスも明らかにしています。
当社は、さまざまなドメインのバイアスを検出するための BEADs データセットを提供しており、このデータセットは責任ある AI の開発と応用にすぐに使用できます。
データセットには https://huggingface.co/datasets/shainar/BEAD からアクセスできます。

要約(オリジナル)

Recent advancements in large language models (LLMs) have greatly enhanced natural language processing (NLP) applications. Nevertheless, these models often inherit biases from their training data. Despite the availability of various datasets for bias detection, most are limited to one or two NLP tasks (typically classification or evaluation) and lack comprehensive evaluations across a broader range of NLP tasks. To address this gap, we introduce the Bias Evaluations Across Domains BEADs dataset, designed to support a wide array of NLP tasks, including text classification, token classification, bias quantification, and benign language generation. A key focus of this paper is the gold label dataset that is annotated by GPT4 for scalabilty and verified by experts to ensure high reliability. BEADs provides data for both fine-tuning, including classification and language generation tasks, and for evaluating LLMs. Our findings indicate that BEADs effectively identifies numerous biases when fine-tuned on this dataset. It also reduces biases when used for fine-tuning language generation task, while preserving language quality. The results also reveal some prevalent demographic biases in LLMs when BEADs is used for evaluation in demographic task. We provide the BEADs dataset for detecting biases in various domains, and this dataset is readily usable for responsible AI development and application. The dataset can be accessed at https://huggingface.co/datasets/shainar/BEAD .

arxiv情報

著者 Shaina Raza,Mizanur Rahman,Michael R. Zhang
発行日 2024-12-24 15:08:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク