Uncovering and Quantifying Social Biases in Code Generation

要約

Copilot などの自動コード生成ツールの人気に伴い、これらのツールの潜在的な危険性の研究の重要性が高まっています。
この研究では、事前トレーニングされたコード生成モデルにおける社会的バイアスの問題を調査します。
私たちは、コードプロンプトを構築し、コード生成モデルにおける社会的バイアスをうまく発見するための新しいパラダイムを提案します。
生成されたコードにおける社会的バイアスの重大度を定量化するために、さまざまな人口統計にわたる全体的な社会的バイアスときめ細かい不公平性を評価するための 3 つの指標を含むデータセットを開発しました。
さまざまなサイズの 3 つの事前トレーニング済みコード生成モデル (Codex、InCoder、および CodeGen) での実験結果から、深刻な社会的バイアスが明らかになりました。
さらに、社会的バイアスが低いコード生成モデルをさらに選択するための有用な洞察を提供するために分析を実施します。
(この作品には、特定の社会集団の個人にとって不快な固定概念、連想、その他の危害を潜在的に示唆する例が含まれています。)

要約(オリジナル)

With the popularity of automatic code generation tools, such as Copilot, the study of the potential hazards of these tools is gaining importance. In this work, we explore the social bias problem in pre-trained code generation models. We propose a new paradigm to construct code prompts and successfully uncover social biases in code generation models. To quantify the severity of social biases in generated code, we develop a dataset along with three metrics to evaluate the overall social bias and fine-grained unfairness across different demographics. Experimental results on three pre-trained code generation models (Codex, InCoder, and CodeGen) with varying sizes, reveal severe social biases. Moreover, we conduct analysis to provide useful insights for further choice of code generation models with low social bias. (This work contains examples that potentially implicate stereotypes, associations, and other harms that could be offensive to individuals in certain social groups.)

arxiv情報

著者 Yan Liu,Xiaokang Chen,Yan Gao,Zhe Su,Fengji Zhang,Daoguang Zan,Jian-Guang Lou,Pin-Yu Chen,Tsung-Yi Ho
発行日 2023-05-24 17:37:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク