要約
言語モデルにおける国籍バイアスの分析にはほとんど注意が払われていません。特に、社会的 NLP モデルのパフォーマンスを向上させる要因として国籍が頻繁に使用されている場合はそうです。
この論文では、テキスト生成モデルである GPT-2 が、国に基づく悪魔についての既存の社会的偏見をどのように強調するかを調べます。
さまざまな国籍の GPT-2 を使用してストーリーを生成し、感度分析を使用して、インターネット ユーザーの数と国の経済状況がストーリーの感情にどのように影響するかを調べます。
大規模言語モデル (LLM) を介したバイアスの伝播を減らすために、敵対的トリガーのバイアス緩和方法を調べます。
私たちの結果は、GPT-2がインターネットユーザーの少ない国に対して大きな偏りを示しており、敵対的なトリガーが同じことを効果的に減らすことを示しています.
要約(オリジナル)
Little attention is placed on analyzing nationality bias in language models, especially when nationality is highly used as a factor in increasing the performance of social NLP models. This paper examines how a text generation model, GPT-2, accentuates pre-existing societal biases about country-based demonyms. We generate stories using GPT-2 for various nationalities and use sensitivity analysis to explore how the number of internet users and the country’s economic status impacts the sentiment of the stories. To reduce the propagation of biases through large language models (LLM), we explore the debiasing method of adversarial triggering. Our results show that GPT-2 demonstrates significant bias against countries with lower internet users, and adversarial triggering effectively reduces the same.
arxiv情報
著者 | Pranav Narayanan Venkit,Sanjana Gautam,Ruchi Panchanadikar,Ting-Hao ‘Kenneth’ Huang,Shomir Wilson |
発行日 | 2023-02-14 21:34:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google