BEATS: Bias Evaluation and Assessment Test Suite for Large Language Models

要約

この研究では、大規模な言語モデル(LLMS)におけるバイアス、倫理、公平性、および事実性を評価するための新しいフレームワークであるBeatsを紹介します。
Beatsフレームワークに基づいて、29の異なるメトリックにわたってパフォーマンスを測定するLLMのバイアスベンチマークを紹介します。
これらのメトリックは、倫理的推論、グループの公平性、および事実関連の誤った情報リスクの測定だけでなく、人口統計、認知、社会のバイアスなど、幅広い特性に及びます。
これらのメトリックにより、LLMが生成した応答が、体系的な不平等を強化または拡大する社会的偏見を永続させる可能性のある程度の定量的評価を可能にします。
このベンチマークで高いスコアを達成するには、LLMが応答に非常に公平な動作を示す必要があり、責任あるAI評価の厳密な基準となっています。
実験結果の実験結果は、業界をリードするモデルによって生成された出力の37.65%に何らかの形のバイアスが含まれており、重要な意思決定システムでこれらのモデルを使用するという大きなリスクを強調していることを示しています。
Beatsフレームワークとベンチマークは、ベンチマークLLMSのスケーラブルで統計的に厳密な方法論を提供し、バイアスを促進する要因を診断し、緩和戦略を開発します。
Beatsフレームワークを使用すると、私たちの目標は、より社会的に責任があり、倫理的に整合したAIモデルの開発を支援することです。

要約(オリジナル)

In this research, we introduce BEATS, a novel framework for evaluating Bias, Ethics, Fairness, and Factuality in Large Language Models (LLMs). Building upon the BEATS framework, we present a bias benchmark for LLMs that measure performance across 29 distinct metrics. These metrics span a broad range of characteristics, including demographic, cognitive, and social biases, as well as measures of ethical reasoning, group fairness, and factuality related misinformation risk. These metrics enable a quantitative assessment of the extent to which LLM generated responses may perpetuate societal prejudices that reinforce or expand systemic inequities. To achieve a high score on this benchmark a LLM must show very equitable behavior in their responses, making it a rigorous standard for responsible AI evaluation. Empirical results based on data from our experiment show that, 37.65\% of outputs generated by industry leading models contained some form of bias, highlighting a substantial risk of using these models in critical decision making systems. BEATS framework and benchmark offer a scalable and statistically rigorous methodology to benchmark LLMs, diagnose factors driving biases, and develop mitigation strategies. With the BEATS framework, our goal is to help the development of more socially responsible and ethically aligned AI models.

arxiv情報

著者 Alok Abhishek,Lisa Erickson,Tushar Bandopadhyay
発行日 2025-03-31 16:56:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 68T50, cs.AI, cs.CL, I.2.0 パーマリンク