Language-Agnostic Bias Detection in Language Models with Bias Probing

要約

事前トレーニング済み言語モデル (PLM) は NLP の重要なコンポーネントですが、強い社会的バイアスが含まれています。
マスクを埋める目的に焦点を当てた現在の手法は入力のわずかな変化に敏感であるため、これらのバイアスを定量化することは困難です。
これに対処するために、言語に依存しない堅牢な方法で PLM の社会的バイアスを評価するための、LABDet と呼ばれるバイアス調査手法を提案します。
ケーススタディとしての国籍については、LABDet が非国籍感情検出に関する凍結された PLM 上で分類器をトレーニングすることにより、国籍バイアスを「表面化」することを示します。
私たちは、歴史的および政治的背景に沿った 6 つの言語の単一言語 PLM 全体で国籍バイアスの一貫したパターンを発見しました。
また、英語 BERT の場合、LABDet によって表面化されたバイアスが事前トレーニング データのバイアスとよく相関していることも示します。
したがって、私たちの研究は、事前トレーニング データを PLM の動作に直接結び付ける数少ない研究の 1 つです。
最後に、広範な堅牢性チェックを通じて、LABDet の信頼性とさまざまなテンプレートや言語への適用性を検証します。
コードとデータセットは https://github.com/akoksal/LABDet で公開されています。

要約(オリジナル)

Pretrained language models (PLMs) are key components in NLP, but they contain strong social biases. Quantifying these biases is challenging because current methods focusing on fill-the-mask objectives are sensitive to slight changes in input. To address this, we propose a bias probing technique called LABDet, for evaluating social bias in PLMs with a robust and language-agnostic method. For nationality as a case study, we show that LABDet `surfaces’ nationality bias by training a classifier on top of a frozen PLM on non-nationality sentiment detection. We find consistent patterns of nationality bias across monolingual PLMs in six languages that align with historical and political context. We also show for English BERT that bias surfaced by LABDet correlates well with bias in the pretraining data; thus, our work is one of the few studies that directly links pretraining data to PLM behavior. Finally, we verify LABDet’s reliability and applicability to different templates and languages through an extensive set of robustness checks. We publicly share our code and dataset in https://github.com/akoksal/LABDet.

arxiv情報

著者 Abdullatif Köksal,Omer Faruk Yalcin,Ahmet Akbiyik,M. Tahir Kilavuz,Anna Korhonen,Hinrich Schütze
発行日 2023-11-20 14:31:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク