BEADs: Bias Evaluation Across Domains

要約

大規模言語モデル (LLM) の最近の改良により、自然言語処理 (NLP) アプリケーションが大幅に強化されました。
ただし、これらのモデルはトレーニング データからバイアスを継承し、永続させる可能性もあります。
この問題に対処することは重要ですが、既存のデータセットの多くは、さまざまな NLP タスクにわたる評価を提供していません。
これに取り組むために、テキスト分類、バイアス エンティティ認識、バイアスの定量化、良性言語の生成など、幅広い NLP タスクをサポートするように設計された Bias Evavals Across Domains (BEADs) データセットを導入します。
BEADs は、AI 主導のアノテーションと専門家の検証を組み合わせて、信頼性の高いラベルを提供します。
この方法は、通常、クラウドソーシング、バイアス評価が限定された専門家のみのアノテーション、または未検証の AI ラベリングに依存する既存のデータセットの制限を克服します。
私たちの実証分析によると、BEAD はさまざまな言語モデルにわたるバイアスの検出と軽減に効果的であり、BEAD で微調整された小規模なモデルは、バイアス分類タスクにおいて LLM よりも優れたパフォーマンスを発揮することがよくあります。
ただし、これらのモデルは依然として特定の人口統計に対する偏りを示す可能性があります。
良性の言語データを使用して LLM を微調整すると、モデルの知識を維持しながらバイアスも軽減されます。
私たちの調査結果は、包括的なバイアス評価の重要性と、LLM のバイアスを軽減するための的を絞った微調整の可能性を強調しています。
BEAD は https://huggingface.co/datasets/shainar/BEAD で公開しています。 警告: この文書には、攻撃的とみなされる可能性のある例が含まれています。

要約(オリジナル)

Recent improvements in large language models (LLMs) have significantly enhanced natural language processing (NLP) applications. However, these models can also inherit and perpetuate biases from their training data. Addressing this issue is crucial, yet many existing datasets do not offer evaluation across diverse NLP tasks. To tackle this, we introduce the Bias Evaluations Across Domains (BEADs) dataset, designed to support a wide range of NLP tasks, including text classification, bias entity recognition, bias quantification, and benign language generation. BEADs uses AI-driven annotation combined with experts’ verification to provide reliable labels. This method overcomes the limitations of existing datasets that typically depend on crowd-sourcing, expert-only annotations with limited bias evaluations, or unverified AI labeling. Our empirical analysis shows that BEADs is effective in detecting and reducing biases across different language models, with smaller models fine-tuned on BEADs often outperforming LLMs in bias classification tasks. However, these models may still exhibit biases towards certain demographics. Fine-tuning LLMs with our benign language data also reduces biases while preserving the models’ knowledge. Our findings highlight the importance of comprehensive bias evaluation and the potential of targeted fine-tuning for reducing the bias of LLMs. We are making BEADs publicly available at https://huggingface.co/datasets/shainar/BEAD Warning: This paper contains examples that may be considered offensive.

arxiv情報

著者 Shaina Raza,Mizanur Rahman,Michael R. Zhang
発行日 2024-06-07 12:29:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク