Generalizing Fairness to Generative Language Models via Reformulation of Non-discrimination Criteria

要約

近年、大規模な言語モデルのような生成AIが急速に発展している。これらのモデルがますます一般に利用されるようになるにつれ、アプリケーションにおいて有害なバイアスを永続させ、増幅させることへの懸念が生じる。ジェンダーの固定観念は、それが誤った表現からなるものであれ、差別からなるものであれ、対象となる個人にとって有害で制限的なものとなりうる。本論文では、ジェンダーバイアスを社会全体に蔓延する構成要素として認識し、生成言語モデルにおけるジェンダーバイアスの存在を明らかにし定量化する方法を研究する。特に、よく知られた分類の3つの無差別基準、すなわち独立性、分離性、充足性の生成AIアナログを導出する。これらの基準を実際に実証するために、職業的性別ステレオタイプに焦点を当て、特に生成AIコンテキストにおけるグランドトゥルースを導入するために医学的テストを利用し、各基準のプロンプトを設計する。我々の結果は、このような会話言語モデルにおける職業性別バイアスの存在に対処するものである。

要約(オリジナル)

Generative AI, such as large language models, has undergone rapid development within recent years. As these models become increasingly available to the public, concerns arise about perpetuating and amplifying harmful biases in applications. Gender stereotypes can be harmful and limiting for the individuals they target, whether they consist of misrepresentation or discrimination. Recognizing gender bias as a pervasive societal construct, this paper studies how to uncover and quantify the presence of gender biases in generative language models. In particular, we derive generative AI analogues of three well-known non-discrimination criteria from classification, namely independence, separation and sufficiency. To demonstrate these criteria in action, we design prompts for each of the criteria with a focus on occupational gender stereotype, specifically utilizing the medical test to introduce the ground truth in the generative AI context. Our results address the presence of occupational gender bias within such conversational language models.

arxiv情報

著者 Sara Sterlie,Nina Weng,Aasa Feragen
発行日 2024-09-02 11:09:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.HC パーマリンク