要約
タイトル:言語モデルにおける関連性バイアスと実証的公平性の独立性について
要約:
– プレトレーニング済みの言語モデルの社会的影響のため、保護された属性と価値の高い用語、スラングから職業タイトルまでの強い関連性を調査する研究が行われている。
– このような研究は、モデルのバイアスや公平性を調査するものである。また、これらの調査は「公平性に関心を持って実施された」と表現され、バイアスと公平性の間に親密な関係があることを示唆している。
– 関連性バイアスと実証的公平性を区別することで概念的な明確さを提供し、それらが独立であることを示します。実際、私たちの主な貢献は、なぜそれらが独立していることが驚くべきことではないかを示すことです。
– まず、関連性バイアスと実証的公平性が完全に直交する可能性を示す思考実験を提供します。次に、最も広く使用されている言語モデルを横断したバイアスメトリックと公平性メトリックの間に相関がないことを示す経験的な証拠を提供します。
– 最後に、社会学と心理学の文献を調査し、これらのメトリックが相関しないことを期待するための豊富な支援があることを示します。
要約(オリジナル)
The societal impact of pre-trained language models has prompted researchers to probe them for strong associations between protected attributes and value-loaded terms, from slur to prestigious job titles. Such work is said to probe models for bias or fairness-or such probes ‘into representational biases’ are said to be ‘motivated by fairness’-suggesting an intimate connection between bias and fairness. We provide conceptual clarity by distinguishing between association biases (Caliskan et al., 2022) and empirical fairness (Shen et al., 2022) and show the two can be independent. Our main contribution, however, is showing why this should not come as a surprise. To this end, we first provide a thought experiment, showing how association bias and empirical fairness can be completely orthogonal. Next, we provide empirical evidence that there is no correlation between bias metrics and fairness metrics across the most widely used language models. Finally, we survey the sociological and psychological literature and show how this literature provides ample support for expecting these metrics to be uncorrelated.
arxiv情報
著者 | Laura Cabello,Anna Katrine Jørgensen,Anders Søgaard |
発行日 | 2023-04-20 08:27:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI