She Elicits Requirements and He Tests: Software Engineering Gender Bias in Large Language Models

要約

ソフトウェア開発における暗黙のジェンダー バイアスは、技術的な役割と男性との関連付けなど、十分に文書化された問題です。
この偏見に対処するには、それをより詳細に理解することが重要です。
この調査では、データ マイニング技術を使用して、GitHub の問題の割り当てやテストなど、ソフトウェア開発に関連する 56 のタスクが、大規模な言語モデルに埋め込まれた暗黙のジェンダー バイアスによってどの程度影響を受けるかを調査します。
各タスクを英語から性別のない言語に体系的に翻訳し、各タスクに関連付けられている代名詞を調査しました。
各タスクを異なる順列で100回翻訳することに基づいて、異なるタスクとの性別代名詞の関連付けに大きな格差があることを特定しました。
具体的には、要件の引き出しは、わずか 6% のケースで代名詞「彼」に関連付けられていましたが、テストは 100% のケースで「彼」に関連付けられていました。
さらに、他の人を助けることに関連するタスクは「彼」と 91% の関連性がありましたが、同僚に尋ねることに関連するタスクの同じ関連性は 52% にすぎませんでした。
これらの調査結果は、ソフトウェア開発タスクに関連するジェンダーバイアスの明確なパターンを明らかにしており、大規模な言語モデルのトレーニングとより広い社会の両方でこの問題に対処するための重要な意味を持っています.

要約(オリジナル)

Implicit gender bias in software development is a well-documented issue, such as the association of technical roles with men. To address this bias, it is important to understand it in more detail. This study uses data mining techniques to investigate the extent to which 56 tasks related to software development, such as assigning GitHub issues and testing, are affected by implicit gender bias embedded in large language models. We systematically translated each task from English into a genderless language and back, and investigated the pronouns associated with each task. Based on translating each task 100 times in different permutations, we identify a significant disparity in the gendered pronoun associations with different tasks. Specifically, requirements elicitation was associated with the pronoun ‘he’ in only 6% of cases, while testing was associated with ‘he’ in 100% of cases. Additionally, tasks related to helping others had a 91% association with ‘he’ while the same association for tasks related to asking coworkers was only 52%. These findings reveal a clear pattern of gender bias related to software development tasks and have important implications for addressing this issue both in the training of large language models and in broader society.

arxiv情報

著者 Christoph Treude,Hideaki Hata
発行日 2023-03-17 17:16:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG, cs.SE パーマリンク