The Mismeasure of Man and Models: Evaluating Allocational Harms in Large Language Models

要約

大規模言語モデル(LLM)は現在、採用や臨床判断のような利害の大きい意思決定をサポートするアプリケーションのために検討され、導入さえされている。バイアスを測定するためにいくつかの方法が提案されているが、提案された方法が考慮するものである予測と、意思決定に使用される方法との間にはギャップが残っている。本研究では、LLM予測におけるバイアスから生じる潜在的な配分上の弊害を評価する、モデルに依存しないバイアス指標であるRank-Allocational-Based Bias Index(RABBI)を紹介する。RABBIと現在のバイアス指標を2つの配分決定タスクで比較する。10個のLLMにおける予測妥当性とモデル選択における有用性を評価する。その結果、平均パフォーマンスギャップと分布距離に基づく一般的に使用されているバイアスメトリクスは、割り当て結果におけるグループ格差を確実に捉えることができないのに対し、RABBIは割り当て格差と強い相関を示すことが明らかになった。我々の研究は、リソースに制約のある状況でモデルがどのように使用されるかを考慮する必要性を強調している。

要約(オリジナル)

Large language models (LLMs) are now being considered and even deployed for applications that support high-stakes decision-making, such as recruitment and clinical decisions. While several methods have been proposed for measuring bias, there remains a gap between predictions, which are what the proposed methods consider, and how they are used to make decisions. In this work, we introduce Rank-Allocational-Based Bias Index (RABBI), a model-agnostic bias measure that assesses potential allocational harms arising from biases in LLM predictions. We compare RABBI and current bias metrics on two allocation decision tasks. We evaluate their predictive validity across ten LLMs and utility for model selection. Our results reveal that commonly-used bias metrics based on average performance gap and distribution distance fail to reliably capture group disparities in allocation outcomes, whereas RABBI exhibits a strong correlation with allocation disparities. Our work highlights the need to account for how models are used in contexts with limited resource constraints.

arxiv情報

著者 Hannah Chen,Yangfeng Ji,David Evans
発行日 2024-08-02 14:13:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CY パーマリンク