Measuring Social Biases in Masked Language Models by Proxy of Prediction Quality

要約

社会科学者や政治学者は、テキスト データ表現 (埋め込み) から明確なバイアスを発見して測定することを目的とすることがよくあります。
革新的なトランスフォーマーベースの言語モデルは、コンテキストを認識したトークン埋め込みを生成し、さまざまな自然言語タスクに対して最先端のパフォーマンスを達成しましたが、下流のアプリケーションに対して望ましくないバイアスをエンコードすることが示されています。
この論文では、反復マスキング実験内で提案された代理関数を使用して、マスクされた言語モデリング目標でトレーニングされたトランスフォーマーによってエンコードされた社会的バイアスを評価し、トランスフォーマー モデルの予測の品質を測定し、不利なグループと有利なグループに対する MLM の選好を評価します。
私たちは、2 つのベンチマーク データセットを使用して、バイアス推定値を他の評価方法で生成された推定値と比較し、検討対象の MLM 全体で比較的高い宗教バイアスと障害バイアスがあり、一方のデータセットではもう一方のデータセットと比較して性別バイアスが低いことを発見しました。
私たちの尺度は、ヒューマン・アノテーターとの合意において他の尺度を上回っています。
我々は、マスクされた言語モデリング目標(モデルの事前訓練されたベースに関して)に基づいてMLMを再訓練した後に導入された社会的バイアスを評価することによって以前の研究を拡張し、提案された尺度がトランスフォーマー間の偏った文に対する相対的な好みのより正確な推定を生成することを発見しました。
その他は当社の方法に基づいています。

要約(オリジナル)

Social and political scientists often aim to discover and measure distinct biases from text data representations (embeddings). Innovative transformer-based language models produce contextually-aware token embeddings and have achieved state-of-the-art performance for a variety of natural language tasks, but have been shown to encode unwanted biases for downstream applications. In this paper, we evaluate the social biases encoded by transformers trained with the masked language modeling objective using proposed proxy functions within an iterative masking experiment to measure the quality of transformer models’ predictions, and assess the preference of MLMs towards disadvantaged and advantaged groups. We compare bias estimations with those produced by other evaluation methods using two benchmark datasets, finding relatively high religious and disability biases across considered MLMs and low gender bias in one dataset relative to the other. Our measures outperform others in their agreement with human annotators. We extend on previous work by evaluating social biases introduced after re-training an MLM under the masked language modeling objective (w.r.t. the model’s pre-trained base), and find that proposed measures produce more accurate estimations of relative preference for biased sentences between transformers than others based on our methods.

arxiv情報

著者 Rahul Zalkikar,Kanchan Chandra
発行日 2024-02-21 17:33:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク