Keeping Up with the Language Models: Systematic Benchmark Extension for Bias Auditing

要約

言語モデル (LM) のバイアス監査は、LM が普及するにつれてかなりの注目を集めています。
そのため、バイアス監査のベンチマークがいくつか提案されています。
同時に、LM の急速な進化により、これらのベンチマークはすぐに無意味になる可能性があります。
バイアス監査は、LM の脆弱性によってさらに複雑になります。おそらくバイアスされた結果が観察されたとき、それはモデルのバイアスによるものですか、それともモデルの脆弱性によるものでしょうか。
私たちは、依然として困難なバイアス監査データセットの構築を支援するためにモデル自体を協力させ、さまざまなタイプのモデルエラーを区別するバイアス測定を導入することを提案します。
まず、LM で生成された語彙バリエーション、敵対的フィルタリング、人間による検証を組み合わせて、NLI 用の既存のバイアス ベンチマーク (BBNLI) を拡張します。
新しく作成されたデータセット BBNLI-next は BBNLI よりも困難であることを実証します。平均すると、BBNLI-next は最先端の NLI モデルの精度を BBNLI で観測された 95.3% から驚くほど低い 57.5% に低下させます。

次に、BBNLI-next を使用してロバスト性とバイアスの相互作用を示します。現在のバイアス スコアの欠点を指摘し、バイアスとモデルの脆弱性の両方を考慮したバイアス尺度を提案します。
第三に、BBNLI-next は非生成モデルを念頭に置いて設計されているという事実にもかかわらず、新しいデータセットは最先端のオープンソース生成 LM のバイアスも明らかにできることを示します。
注: この研究に含まれるすべてのデータセットは英語であり、米国中心の社会的偏見に対処しています。
効率的な NLP 研究の精神に基づき、この研究を実施するためにモデルのトレーニングや微調整は行われませんでした。
警告: この文書には不快な文章の例が含まれています。

要約(オリジナル)

Bias auditing of language models (LMs) has received considerable attention as LMs are becoming widespread. As such, several benchmarks for bias auditing have been proposed. At the same time, the rapid evolution of LMs can make these benchmarks irrelevant in no time. Bias auditing is further complicated by LM brittleness: when a presumably biased outcome is observed, is it due to model bias or model brittleness? We propose enlisting the models themselves to help construct bias auditing datasets that remain challenging, and introduce bias measures that distinguish between different types of model errors. First, we extend an existing bias benchmark for NLI (BBNLI) using a combination of LM-generated lexical variations, adversarial filtering, and human validation. We demonstrate that the newly created dataset BBNLI-next is more challenging than BBNLI: on average, BBNLI-next reduces the accuracy of state-of-the-art NLI models from 95.3%, as observed by BBNLI, to a strikingly low 57.5%. Second, we employ BBNLI-next to showcase the interplay between robustness and bias: we point out shortcomings in current bias scores and propose bias measures that take into account both bias and model brittleness. Third, despite the fact that BBNLI-next was designed with non-generative models in mind, we show that the new dataset is also able to uncover bias in state-of-the-art open-source generative LMs. Note: All datasets included in this work are in English and they address US-centered social biases. In the spirit of efficient NLP research, no model training or fine-tuning was performed to conduct this research. Warning: This paper contains offensive text examples.

arxiv情報

著者 Ioana Baldini,Chhavi Yadav,Manish Nagireddy,Payel Das,Kush R. Varshney
発行日 2024-09-25 14:06:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク