A Novel Interpretability Metric for Explaining Bias in Language Models: Applications on Multilingual Models from Southeast Asia

要約

事前トレーニング済み言語モデル (PLM) におけるバイアスに関する研究は、バイアスの評価と軽減に焦点を当てており、バイアスの帰属と説明可能性の問題には取り組んでいません。
我々は、PLM における偏った動作に対するトークンレベルの寄与を測定するために情報理論に基づいた新しい指標である $\textit{バイアス アトリビューション スコア}$ を提案します。
次に、バイアス評価文献でまだ十分に検討されていない東南アジアのモデルを含む多言語 PLM にこのメトリクスを適用することで、このメトリクスの有用性を実証します。
私たちの結果は、東南アジアの PLM に性差別的および同性愛嫌悪的な偏見が存在することを裏付けています。
解釈可能性と意味論的な分析では、PLM バイアスが犯罪、親密な関係、他の言説カテゴリの中でも援助に関連する単語によって強く誘発されることも明らかになりました。これらのトピックは、PLM が事前トレーニング データからバイアスを強く再現するトピックであり、PLM をより慎重に使用する必要があるトピックであることを示唆しています。

要約(オリジナル)

Work on bias in pretrained language models (PLMs) focuses on bias evaluation and mitigation and fails to tackle the question of bias attribution and explainability. We propose a novel metric, the $\textit{bias attribution score}$, which draws from information theory to measure token-level contributions to biased behavior in PLMs. We then demonstrate the utility of this metric by applying it on multilingual PLMs, including models from Southeast Asia which have not yet been thoroughly examined in bias evaluation literature. Our results confirm the presence of sexist and homophobic bias in Southeast Asian PLMs. Interpretability and semantic analyses also reveal that PLM bias is strongly induced by words relating to crime, intimate relationships, and helping among other discursive categories, suggesting that these are topics where PLMs strongly reproduce bias from pretraining data and where PLMs should be used with more caution.

arxiv情報

著者 Lance Calvin Lim Gamboa,Mark Lee
発行日 2024-10-24 15:58:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク