CALM : A Multi-task Benchmark for Comprehensive Assessment of Language Model Bias

要約

言語モデル (LM) がますます強力になり、広く使用されるようになっているため、害を及ぼす可能性のある社会人口学的バイアスを定量化することが重要です。
バイアスの以前の測定は、多様性が低い、またはテンプレートの数が限られているなどの要因により、社会的グループ全体でパフォーマンスを比較するように設計されたテンプレートの摂動に敏感です。
また、これまでの研究のほとんどでは、NLP タスクが 1 つだけ考慮されていました。
私たちは、普遍的に関連する 2 種類の社会人口学的バイアス、性別と人種を確実に測定するための言語モデルの包括的評価 (CALM) を導入します。
CALM は、質問応答、感情分析、自然言語推論のために 16 のデータセットを統合します。
各データセットの例はフィルタリングされて、多様性 (長さ、語彙など) の高い 224 個のテンプレートが生成されます。
7 つの異なる人口統計グループごとに 50 の頻度の高い人名を集めて、3 つの NLP タスクをカバーする 78,400 のプロンプトを生成します。
私たちの経験的評価により、CALM バイアス スコアは以前のバイアス測定よりも堅牢で、同義語置換などのテンプレート内の摂動やテンプレートのランダムなサブセット選択に対する感度がはるかに低いことが示されています。
CALM を 20 個の大規模な言語モデルに適用したところ、2 つの言語モデル シリーズでは、大きなパラメータ モデルが小さなパラメータ モデルよりも偏る傾向があることがわかりました。
T0 シリーズは、ここで調査した 20 個の LLM の中で最も偏りの少ないモデル ファミリです。
コードは https://github.com/vipulgupta1011/CALM で入手できます。

要約(オリジナル)

As language models (LMs) become increasingly powerful and widely used, it is important to quantify them for sociodemographic bias with potential for harm. Prior measures of bias are sensitive to perturbations in the templates designed to compare performance across social groups, due to factors such as low diversity or limited number of templates. Also, most previous work considers only one NLP task. We introduce Comprehensive Assessment of Language Models (CALM) for robust measurement of two types of universally relevant sociodemographic bias, gender and race. CALM integrates sixteen datasets for question-answering, sentiment analysis and natural language inference. Examples from each dataset are filtered to produce 224 templates with high diversity (e.g., length, vocabulary). We assemble 50 highly frequent person names for each of seven distinct demographic groups to generate 78,400 prompts covering the three NLP tasks. Our empirical evaluation shows that CALM bias scores are more robust and far less sensitive than previous bias measurements to perturbations in the templates, such as synonym substitution, or to random subset selection of templates. We apply CALM to 20 large language models, and find that for 2 language model series, larger parameter models tend to be more biased than smaller ones. The T0 series is the least biased model families, of the 20 LLMs investigated here. The code is available at https://github.com/vipulgupta1011/CALM.

arxiv情報

著者 Vipul Gupta,Pranav Narayanan Venkit,Hugo Laurençon,Shomir Wilson,Rebecca J. Passonneau
発行日 2024-01-24 01:09:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク