Indian-BhED: A Dataset for Measuring India-Centric Biases in Large Language Models

要約

大規模言語モデル (LLM) は現在、何百万もの人々によって毎日使用されており、社会的偏見をコード化し、ユーザーを表現上の危害にさらす可能性があります。
LLM バイアスに関する多くの学問が存在しますが、それは主に西側中心の枠組みを採用しており、グローバル・サウスにおけるバイアスのレベルや潜在的な危害には比較的関心がありません。
この論文では、インドのカーストと宗教的固定観念の文脈における固定観念と反固定観念の例を含む、この種のものとしては初のデータセットである Indian-BhED を通じて、インド中心のフレームに従って、一般的な LLM における固定観念の偏見を定量化しました。
テストされたLLMの大部分は、特に性別や人種など、西洋の文脈で伝統的に研究されてきた偏見の軸と比較した場合、インドの文脈でステレオタイプを出力する強い傾向があることがわかりました。
特に、GPT-2、GPT-2 Large、および GPT 3.5 は、カースト (63 ~ 79%) および宗教 (69 ~ 72%) の軸に関する全文の割合として、定型的な出力を好む傾向が特に高いことがわかりました。
)。
私たちは最終的に、LLM におけるそのような有害な行動の潜在的な原因を調査し、常同的バイアスと反常同的バイアスの両方を軽減するための介入技術を提案します。
この研究結果は、AI の公平性を研究し、LLM を評価する際に、より多様な意見を含める必要性を浮き彫りにしています。

要約(オリジナル)

Large Language Models (LLMs), now used daily by millions, can encode societal biases, exposing their users to representational harms. A large body of scholarship on LLM bias exists but it predominantly adopts a Western-centric frame and attends comparatively less to bias levels and potential harms in the Global South. In this paper, we quantify stereotypical bias in popular LLMs according to an Indian-centric frame through Indian-BhED, a first of its kind dataset, containing stereotypical and anti-stereotypical examples in the context of caste and religious stereotypes in India. We find that the majority of LLMs tested have a strong propensity to output stereotypes in the Indian context, especially when compared to axes of bias traditionally studied in the Western context, such as gender and race. Notably, we find that GPT-2, GPT-2 Large, and GPT 3.5 have a particularly high propensity for preferring stereotypical outputs as a percent of all sentences for the axes of caste (63-79%) and religion (69-72%). We finally investigate potential causes for such harmful behaviour in LLMs, and posit intervention techniques to reduce both stereotypical and anti-stereotypical biases. The findings of this work highlight the need for including more diverse voices when researching fairness in AI and evaluating LLMs.

arxiv情報

著者 Khyati Khandelwal,Manuel Tonneau,Andrew M. Bean,Hannah Rose Kirk,Scott A. Hale
発行日 2024-08-09 09:36:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク