要約
大規模言語モデル (LLM) は、ジェンダーバイアスを示すコンテンツを生成する傾向があり、重大な倫理的懸念を引き起こします。
望ましい行動に合わせて LLM を微調整するプロセスである調整は、ジェンダーバイアスを軽減する効果的なアプローチとして認識されています。
独自の LLM はジェンダーバイアスの緩和において大きな進歩を遂げましたが、そのアライメントデータセットは一般に公開されていません。
一般的に使用され、公開されているアライメント データセットである HH-RLHF は、依然としてある程度の性別による偏りを示しています。
ジェンダーバイアスに対処するために特別に設計された、公的に利用可能なアラインメントデータセットが不足しています。
そこで、LLM における包括的なジェンダーバイアスを軽減することを目的として、GenderAlign という名前の新しいデータセットを開発しました。
このデータセットは 8,000 個のシングル ターン ダイアログで構成されており、それぞれが「選択された」応答と「拒否された」応答とペアになっています。
「拒否された」回答と比較して、「選択された」回答はジェンダーバイアスのレベルが低く、質が高いことを示しています。
さらに、GenderAlign の「拒否された」回答におけるジェンダーバイアスを 4 つの主要なカテゴリに分類しました。
実験結果は、LLM におけるジェンダーバイアスを軽減する上で GenderAlign が有効であることを示しています。
要約(オリジナル)
Large Language Models (LLMs) are prone to generating content that exhibits gender biases, raising significant ethical concerns. Alignment, the process of fine-tuning LLMs to better align with desired behaviors, is recognized as an effective approach to mitigate gender biases. Although proprietary LLMs have made significant strides in mitigating gender bias, their alignment datasets are not publicly available. The commonly used and publicly available alignment dataset, HH-RLHF, still exhibits gender bias to some extent. There is a lack of publicly available alignment datasets specifically designed to address gender bias. Hence, we developed a new dataset named GenderAlign, aiming at mitigating a comprehensive set of gender biases in LLMs. This dataset comprises 8k single-turn dialogues, each paired with a ‘chosen’ and a ‘rejected’ response. Compared to the ‘rejected’ responses, the ‘chosen’ responses demonstrate lower levels of gender bias and higher quality. Furthermore, we categorized the gender biases in the ‘rejected’ responses of GenderAlign into 4 principal categories. The experimental results show the effectiveness of GenderAlign in reducing gender bias in LLMs.
arxiv情報
著者 | Tao Zhang,Ziqian Zeng,Yuxiang Xiao,Huiping Zhuang,Cen Chen,James Foulds,Shimei Pan |
発行日 | 2024-12-10 14:46:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google