Evaluation of Social Biases in Recent Large Pre-Trained Models

要約

タイトル: 最近の大規模事前学習モデルにおける社会的偏見の評価
要約:
– 大規模事前学習言語モデルは、広く用いられており、通常、インターネットのような公開ソースから未修正で未フィルターのデータで訓練されています。
– これにより、オンラインプラットフォームで見られる偏見は、社会の偏見を反映しており、これらのモデルによってキャプチャされ、学習されています。
– これらのモデルは、何百万人もの人々に影響を与えるアプリケーションで展開されており、その固有の偏見は、対象となる社会集団にとって有害です。
– この研究では、最新の事前学習モデルの社会的偏りの減少の一般的な傾向を調べています。
– ELECTRA、DeBERTa、DistilBERTの3つの最近のモデルが選択され、2つの偏りのベンチマーク、StereoSetとCrowS-Pairsに対して評価されます。
– 関連メトリックを使用して、BERTのベースラインと比較されます。
– 進歩があり、新しい、より速く、より軽いモデルがリリースされるにつれて、これらのモデルは、古いモデルに比べて社会的に偏った傾向を削減するように責任を持って開発されているかどうかを探求します。
– 結果をまとめ、すべての評価対象モデルが偏りを示すが、一般的にBERTと比較して改善されたことがわかりました。

要点:
– 大規模事前学習言語モデルは、未修正で未フィルターのデータで訓練されるため、社会的偏見を学習する可能性がある。
– 近年、ELECTRA、DeBERTa、DistilBERTの3つのモデルが、2つの偏りのベンチマーク、StereoSetとCrowS-Pairsに対して評価された。
– すべてのモデルが偏りを示したが、一般的にBERTと比較して改善されていた。
– 社会的偏見を削減するために、新しいモデルが責任を持って開発されているかどうかが重要である。

要約(オリジナル)

Large pre-trained language models are widely used in the community. These models are usually trained on unmoderated and unfiltered data from open sources like the Internet. Due to this, biases that we see in platforms online which are a reflection of those in society are in turn captured and learned by these models. These models are deployed in applications that affect millions of people and their inherent biases are harmful to the targeted social groups. In this work, we study the general trend in bias reduction as newer pre-trained models are released. Three recent models ( ELECTRA, DeBERTa, and DistilBERT) are chosen and evaluated against two bias benchmarks, StereoSet and CrowS-Pairs. They are compared to the baseline of BERT using the associated metrics. We explore whether as advancements are made and newer, faster, lighter models are released: are they being developed responsibly such that their inherent social biases have been reduced compared to their older counterparts? The results are compiled and we find that all the models under study do exhibit biases but have generally improved as compared to BERT.

arxiv情報

著者 Swapnil Sharma,Nikita Anand,Kranthi Kiran G. V.,Alind Jain
発行日 2023-04-13 23:29:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CY, cs.LG パーマリンク