要約
大規模言語モデル(LLM)の社会的運用への統合が進むにつれ、経済、法律、教育、医療などの重要な分野における意思決定への影響が増大し、これらのモデルの差別に関する安全性と信頼性に対する社会的懸念が高まっている。しかしながら、先行する差別測定の枠組みは、LLMの平均的な差別行動を評価するのみであり、差別を導く追加的な要因、すなわち、多様な文脈におけるLLMの予測変動が見落とされているため、しばしば不十分であることが判明している。本研究では、LLMの一貫して偏った選好と多様な文脈に渡る選好変動の両方を考慮することで、LLMの差別を包括的に測定する偏見-気まぐれフレームワーク(PCF)を提示する。具体的には、LLMの文脈を集約した差別リスクを、LLMの持続的な偏見に由来する偏見リスクと、彼らの世代の矛盾に由来する気まぐれリスクに数学的に分解する。さらに、LLMの適用文脈を近似するために、属性指示のない文の骨格から選好検出プローブを収集するデータマイニングのアプローチを利用する。当初はLLMの識別を評価することを目的としていたが、我々の提案するPCFは、様々なモダリティモデルにおいて、偏見と並ぶ知識を含むあらゆる帰納的バイアスの包括的かつ柔軟な測定を容易にする。その結果、興味深い知見が得られた:i)現代のLLMは男性寄りのステレオタイプを顕著に示していること、ii)LLMが示す差別はいくつかの社会的・経済的要因と相関していること、iii)偏見リスクは全体的な差別リスクを支配し、正規分布に従うこと、iv)気まぐれリスクは全体的なリスクへの寄与は小さいが、ファットテール分布に従うこと。
要約(オリジナル)
The growing integration of large language models (LLMs) into social operations amplifies their impact on decisions in crucial areas such as economics, law, education, and healthcare, raising public concerns about these models’ discrimination-related safety and reliability. However, prior discrimination measuring frameworks solely assess the average discriminatory behavior of LLMs, often proving inadequate due to the overlook of an additional discrimination-leading factor, i.e., the LLMs’ prediction variation across diverse contexts. In this work, we present the Prejudice-Caprice Framework (PCF) that comprehensively measures discrimination in LLMs by considering both their consistently biased preference and preference variation across diverse contexts. Specifically, we mathematically dissect the aggregated contextualized discrimination risk of LLMs into prejudice risk, originating from LLMs’ persistent prejudice, and caprice risk, stemming from their generation inconsistency. In addition, we utilize a data-mining approach to gather preference-detecting probes from sentence skeletons, devoid of attribute indications, to approximate LLMs’ applied contexts. While initially intended for assessing discrimination in LLMs, our proposed PCF facilitates the comprehensive and flexible measurement of any inductive biases, including knowledge alongside prejudice, across various modality models. We apply our discrimination-measuring framework to 12 common LLMs, yielding intriguing findings: i) modern LLMs demonstrate significant pro-male stereotypes, ii) LLMs’ exhibited discrimination correlates with several social and economic factors, iii) prejudice risk dominates the overall discrimination risk and follows a normal distribution, and iv) caprice risk contributes minimally to the overall risk but follows a fat-tailed distribution, suggesting that it is wild risk requiring enhanced surveillance.
arxiv情報
著者 | Yiran Liu,Ke Yang,Zehan Qi,Xiao Liu,Yang Yu,Chengxiang Zhai |
発行日 | 2024-02-29 22:50:10+00:00 |
arxivサイト | arxiv_id(pdf) |