”Fifty Shades of Bias”: Normative Ratings of Gender Bias in GPT Generated English Text

要約

言語は、社会の信念体系を表現するための強力なツールとして機能します。
そうすることで、私たちの社会に蔓延する偏見も永続化します。
ジェンダーバイアスは私たちの社会に最も蔓延している偏見の 1 つであり、オンラインおよびオフラインの言説で見られます。
LLM がテキスト生成において人間のような流暢さをますます獲得しているため、これらのシステムが生成する可能性のあるバイアスを微妙に理解することが不可欠です。
これまでの研究では、ジェンダーバイアスを二項分類タスクとして扱うことがよくありました。
ただし、偏見は相対的なスケールで認識される必要があることを認識してください。
私たちは、手動アノテーターの生成と、その結果として生じるさまざまな程度のバイアスに対する受容性を調査します。
具体的には、ジェンダーバイアスの規範的な評価を含む、GPT によって生成された英語テキストの最初のデータセットを作成します。
評価は、効率的な比較アノテーション フレームワークである Best-Worst Scaling を使用して取得されました。
次に、観察されたランキングにおけるジェンダーバイアスのテーマの変動を体系的に分析し、アイデンティティ攻撃がジェンダーバイアスと最も密接に関連していることを示します。
最後に、データセット上の関連概念に基づいてトレーニングされた既存の自動化モデルのパフォーマンスを示します。

要約(オリジナル)

Language serves as a powerful tool for the manifestation of societal belief systems. In doing so, it also perpetuates the prevalent biases in our society. Gender bias is one of the most pervasive biases in our society and is seen in online and offline discourses. With LLMs increasingly gaining human-like fluency in text generation, gaining a nuanced understanding of the biases these systems can generate is imperative. Prior work often treats gender bias as a binary classification task. However, acknowledging that bias must be perceived at a relative scale; we investigate the generation and consequent receptivity of manual annotators to bias of varying degrees. Specifically, we create the first dataset of GPT-generated English text with normative ratings of gender bias. Ratings were obtained using Best–Worst Scaling — an efficient comparative annotation framework. Next, we systematically analyze the variation of themes of gender biases in the observed ranking and show that identity-attack is most closely related to gender bias. Finally, we show the performance of existing automated models trained on related concepts on our dataset.

arxiv情報

著者 Rishav Hada,Agrima Seth,Harshita Diddee,Kalika Bali
発行日 2023-10-26 14:34:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク