要約
近年、単語埋め込みはテキスト内のバイアスを測定するために広く使用されています。
たとえさまざまなバイアスを検出するのに効果的であることが証明されているとしても、単語埋め込みに基づくメトリクスは透明性と解釈可能性に欠けています。
テキスト内のバイアスを定量化するために、代替の PMI ベースの指標を分析します。
これは条件付き確率の関数として表すことができ、単語の共起に関して簡単な解釈が可能になります。
また、オッズ比によって近似できることも証明します。これにより、信頼区間とテキストのバイアスの統計的有意性を推定できるようになります。
このアプローチは、大規模なコーパスに埋め込まれた現実世界のジェンダーギャップを捕捉する際に、単語の埋め込みに基づく指標と同様の結果を生成します。
要約(オリジナル)
In recent years, word embeddings have been widely used to measure biases in texts. Even if they have proven to be effective in detecting a wide variety of biases, metrics based on word embeddings lack transparency and interpretability. We analyze an alternative PMI-based metric to quantify biases in texts. It can be expressed as a function of conditional probabilities, which provides a simple interpretation in terms of word co-occurrences. We also prove that it can be approximated by an odds ratio, which allows estimating confidence intervals and statistical significance of textual biases. This approach produces similar results to metrics based on word embeddings when capturing gender gaps of the real world embedded in large corpora.
arxiv情報
著者 | Francisco Valentini,Germán Rosati,Damián Blasi,Diego Fernandez Slezak,Edgar Altszyler |
発行日 | 2023-07-18 16:40:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google