要約
ジェンダーバイアスを含む差別的な社会的バイアスが、事前トレーニング済み言語モデル (PLM) で発見されています。
自然言語推論 (NLI) では、最近のバイアス評価手法により、中立または含意などの特定のラベルの出力からの偏った推論が観察されています。
ただし、さまざまな偏った推論がさまざまな出力ラベルに関連付けられる可能性があるため、メソッドが 1 つのラベルに依存することは不正確です。
この研究では、NLI タスク内のすべてのラベルを考慮する評価方法を提案します。
評価データを作成し、予想される偏った出力ラベルに基づいてグループに割り当てます。
次に、各データ グループの対応するラベル出力に基づいてバイアス測定を定義します。
実験では、NLI バイアス尺度のメタ評価方法を提案し、それを使用して、尺度がベースラインよりも正確にバイアスを評価できることを確認します。
さらに、PLM のメタ評価を英語、日本語、中国語の 3 か国語で実施することで、評価手法が多言語に適用できることを示しました。
最後に、各言語の PLM を評価して、バイアス傾向を確認します。
私たちの知る限りでは、日本語と中国語で評価データセットを構築し、NLI タスクからの PLM のバイアスを測定したのは当社が初めてです。
要約(オリジナル)
Discriminatory social biases, including gender biases, have been found in Pre-trained Language Models (PLMs). In Natural Language Inference (NLI), recent bias evaluation methods have observed biased inferences from the outputs of a particular label such as neutral or entailment. However, since different biased inferences can be associated with different output labels, it is inaccurate for a method to rely on one label. In this work, we propose an evaluation method that considers all labels in the NLI task. We create evaluation data and assign them into groups based on their expected biased output labels. Then, we define a bias measure based on the corresponding label output of each data group. In the experiment, we propose a meta-evaluation method for NLI bias measures, and then use it to confirm that our measure can evaluate bias more accurately than the baseline. Moreover, we show that our evaluation method is applicable to multiple languages by conducting the meta-evaluation on PLMs in three different languages: English, Japanese, and Chinese. Finally, we evaluate PLMs of each language to confirm their bias tendency. To our knowledge, we are the first to build evaluation datasets and measure the bias of PLMs from the NLI task in Japanese and Chinese.
arxiv情報
著者 | Panatchakorn Anantaprayoon,Masahiro Kaneko,Naoaki Okazaki |
発行日 | 2023-09-18 12:02:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google