Exploring the Influence of Label Aggregation on Minority Voices: Implications for Dataset Bias and Model Training

要約

手動アノテーションにおける不一致の解決は、通常、信頼できないアノテーターを削除し、不一致を解決するために多数決や専門家の意見などのラベル集約戦略を使用することで構成されます。
これらは、少数派ではあるが同様に正当な意見を沈黙させたり、過小評価したりするという副作用をもたらす可能性があります。
この論文では、性差別検出における少数意見の表現に対する標準的なラベル集約戦略の影響を研究します。
私たちは少数派のアノテーションの品質と価値を調査し、ゴールド ラベルのクラス分布に対するそれらの影響と、それが結果として得られるデータセットでトレーニングされたモデルの動作にどのような影響を与えるかを調べます。
最後に、各手法によって導入される潜在的なバイアスと、それらがモデルによってどのように増幅されるかについて説明します。

要約(オリジナル)

Resolving disagreement in manual annotation typically consists of removing unreliable annotators and using a label aggregation strategy such as majority vote or expert opinion to resolve disagreement. These may have the side-effect of silencing or under-representing minority but equally valid opinions. In this paper, we study the impact of standard label aggregation strategies on minority opinion representation in sexism detection. We investigate the quality and value of minority annotations, and then examine their effect on the class distributions in gold labels, as well as how this affects the behaviour of models trained on the resulting datasets. Finally, we discuss the potential biases introduced by each method and how they can be amplified by the models.

arxiv情報

著者 Mugdha Pandya,Nafise Sadat Moosavi,Diana Maynard
発行日 2024-12-05 10:00:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク