White Men Lead, Black Women Help? Benchmarking Language Agency Social Biases in LLMs

要約

社会的偏見は言語主体に現れることがあります。
人間が書いた言語におけるエージェンシー関連のバイアスにアプローチした研究はいくつかありますが、大規模言語モデル (LLM) で生成されたコンテンツにおけるそのようなバイアスを調査した研究は非常に限られています。
さらに、これまでの研究では、テキスト内のエージェント語や共通語を識別するために文字列マッチング技術に依存することが多く、言語エージェントを正確に分類するには至っていませんでした。
モデル世代のさまざまな人口統計グループに起因する代理店レベルを分析することによって、LLM のバイアスを包括的に評価する、新しい言語代理店バイアス評価 (LABE) ベンチマークを紹介します。
LABE は、5,400 のテンプレートベースのプロンプト、正確な代理店分類子、および対応するバイアス メトリックを活用して、伝記、教授レビュー、参照レターという 3 つのテキスト生成タスクに関する LLM の性別、人種、および言語横断的な代理店バイアスをテストします。
また、3,724 のエージェント文と共通文で構成される言語機関分類 (LAC) データセットにも貢献しています。
LABE を使用して、ChatGPT、Llama3、Mistral という 3 つの最近の LLM における言語エージェンシーの社会的バイアスを明らかにします。
(1) LLM 世代は、人間が書いたテキストよりも大きなジェンダーバイアスを示す傾向がある。
(2) モデルは、他のバイアス側面よりも著しく高いレベルの交差バイアスを示しています。
黒人女性など、ジェンダーと人種的少数派の交差点に位置する人々は、現実世界の社会的不平等と一致して、より低いレベルの主体性を持つテキストによって一貫して記述されています。
(3) 調査した 3 つの LLM の中で、Llama3 が全体的に最も大きな偏りを示しています。
(4) プロンプトベースの緩和策は、LLM の言語主体のバイアスを解決できないだけでなく、生成されたテキストのバイアスの悪化につながることがよくあります。

要約(オリジナル)

Social biases can manifest in language agency. While several studies approached agency-related bias in human-written language, very limited research has investigated such biases in Large Language Model (LLM)-generated content. In addition, previous works often rely on string-matching techniques to identify agentic and communal words within texts, which fall short of accurately classifying language agency. We introduce the novel Language Agency Bias Evaluation (LABE) benchmark, which comprehensively evaluates biases in LLMs by analyzing agency levels attributed to different demographic groups in model generations. LABE leverages 5,400 template-based prompts, an accurate agency classifier, and corresponding bias metrics to test for gender, racial, and intersectional language agency biases in LLMs on 3 text generation tasks: biographies, professor reviews, and reference letters. We also contribute the Language Agency Classification (LAC) dataset, consisting of 3,724 agentic and communal sentences. Using LABE, we unveil language agency social biases in 3 recent LLMs: ChatGPT, Llama3, and Mistral. We observe that: (1) LLM generations tend to demonstrate greater gender bias than human-written texts; (2) Models demonstrate remarkably higher levels of intersectional bias than the other bias aspects. Those who are at the intersection of gender and racial minority groups–such as Black females–are consistently described by texts with lower levels of agency, aligning with real-world social inequalities; (3) Among the 3 LLMs investigated, Llama3 demonstrates the greatest overall bias; (4) Not only does prompt-based mitigation fail to resolve language agency bias in LLMs, but it frequently leads to the exacerbation of biases in generated texts.

arxiv情報

著者 Yixin Wan,Kai-Wei Chang
発行日 2024-10-24 17:43:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク