要約
ジェンダーに基づく暴力(GBV)はオンライン上で増加しつつある問題であるが、既存のデータセットでは、アノテーターの可能性のある複数の視点を捉えることができず、影響を受けたグループの代表性を確保することもできない。我々は、GBVのモデレーションパイプラインにおける2つの重要な段階、(1)手動データラベリング、(2)自動分類を再検討する。(1)については、2つのデータセットを調査し、アノテーターのアイデンティティと態度と、彼らが2つのGBVラベリングタスクに与える回答との関係を調べる。そのために、社会心理学で検証された3つの調査を用いて、クラウドソーシングのアノテーターから人口統計学的情報と態度情報を収集する。その結果、「右翼権威主義」のスコアが高いほど、テキストに性差別的なラベルを貼る傾向が高く、「社会的支配志向」と「新性差別主義的態度」のスコアが高いほど、その傾向が低いことがわかった。(2)については、ラージ・ランゲージ・モデルと5つのプロンプト戦略を用いた分類実験を行った。その結果(i)注釈者の態度は分類器のラベルを予測する能力に影響を与えること、(ii)構造化された簡潔な注釈者の説明を使用する場合、態度情報を含めることで性能が向上すること、(iii)モデルは新しいラベルセットの複雑さと不均衡なクラスを反映するのに苦労すること。
要約(オリジナル)
Gender-Based Violence (GBV) is an increasing problem online, but existing datasets fail to capture the plurality of possible annotator perspectives or ensure the representation of affected groups. We revisit two important stages in the moderation pipeline for GBV: (1) manual data labelling; and (2) automated classification. For (1), we examine two datasets to investigate the relationship between annotator identities and attitudes and the responses they give to two GBV labelling tasks. To this end, we collect demographic and attitudinal information from crowd-sourced annotators using three validated surveys from Social Psychology. We find that higher Right Wing Authoritarianism scores are associated with a higher propensity to label text as sexist, while for Social Dominance Orientation and Neosexist Attitudes, higher scores are associated with a negative tendency to do so. For (2), we conduct classification experiments using Large Language Models and five prompting strategies, including infusing prompts with annotator information. We find: (i) annotator attitudes affect the ability of classifiers to predict their labels; (ii) including attitudinal information can boost performance when we use well-structured brief annotator descriptions; and (iii) models struggle to reflect the increased complexity and imbalanced classes of the new label sets.
arxiv情報
著者 | Aiqi Jiang,Nikolas Vitsakis,Tanvi Dinkar,Gavin Abercrombie,Ioannis Konstas |
発行日 | 2024-10-04 15:57:58+00:00 |
arxivサイト | arxiv_id(pdf) |