要約
大規模言語モデル (LLM) の社会業務への統合が進むにつれて、経済、法律、教育、医療などの重要な分野の意思決定に対する LLM の影響が増大しており、これらのモデルの差別に関連した安全性と信頼性についての国民の懸念が高まっています。
しかし、これまでの差別測定フレームワークは、LLM の平均的な差別行動のみを評価しており、追加の差別要因、つまり、多様な状況における LLM の予測変動の見落としにより、不十分であることが判明することがよくありました。
この研究では、LLM の一貫して偏った選好と多様な文脈にわたる選好の変動の両方を考慮することにより、LLM における差別を包括的に測定する偏見・カプリス フレームワーク (PCF) を紹介します。
具体的には、LLM の集約された文脈化された差別リスクを、LLM の永続的な偏見に起因する偏見リスクと、世代の不一致に起因する気まぐれリスクに数学的に分析します。
さらに、データマイニング手法を利用して、属性表示のない文のスケルトンから嗜好検出プローブを収集し、LLM に適用されたコンテキストを近似します。
当初は LLM における差別を評価することを目的としていましたが、私たちが提案する PCF は、さまざまなモダリティ モデルにわたって、偏見に伴う知識を含むあらゆる帰納的バイアスの包括的かつ柔軟な測定を容易にします。
私たちは、差別測定フレームワークを 12 の一般的な LLM に適用し、興味深い発見をもたらしました。i) 現代の LLM は、顕著な男性寄りのステレオタイプを示しています。ii) LLM が示す差別は、いくつかの社会的および経済的要因と相関しています。iii) 偏見のリスクが全体的な差別リスクを支配しています。
iv) 気まぐれリスクは全体のリスクへの寄与は最小限であるが、ファットテール分布に従い、強化された監視が必要な野生のリスクであることを示唆しています。
要約(オリジナル)
The growing integration of large language models (LLMs) into social operations amplifies their impact on decisions in crucial areas such as economics, law, education, and healthcare, raising public concerns about these models’ discrimination-related safety and reliability. However, prior discrimination measuring frameworks solely assess the average discriminatory behavior of LLMs, often proving inadequate due to the overlook of an additional discrimination-leading factor, i.e., the LLMs’ prediction variation across diverse contexts. In this work, we present the Prejudice-Caprice Framework (PCF) that comprehensively measures discrimination in LLMs by considering both their consistently biased preference and preference variation across diverse contexts. Specifically, we mathematically dissect the aggregated contextualized discrimination risk of LLMs into prejudice risk, originating from LLMs’ persistent prejudice, and caprice risk, stemming from their generation inconsistency. In addition, we utilize a data-mining approach to gather preference-detecting probes from sentence skeletons, devoid of attribute indications, to approximate LLMs’ applied contexts. While initially intended for assessing discrimination in LLMs, our proposed PCF facilitates the comprehensive and flexible measurement of any inductive biases, including knowledge alongside prejudice, across various modality models. We apply our discrimination-measuring framework to 12 common LLMs, yielding intriguing findings: i) modern LLMs demonstrate significant pro-male stereotypes, ii) LLMs’ exhibited discrimination correlates with several social and economic factors, iii) prejudice risk dominates the overall discrimination risk and follows a normal distribution, and iv) caprice risk contributes minimally to the overall risk but follows a fat-tailed distribution, suggesting that it is wild risk requiring enhanced surveillance.
arxiv情報
著者 | Yiran Liu,Ke Yang,Zehan Qi,Xiao Liu,Yang Yu,Chengxiang Zhai |
発行日 | 2024-02-23 18:15:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google